数据挖掘
Drgom
多做事,少说话
展开
-
基于pyspark的随机森林
import findsparkfrom numpy import frompyfuncfrom pyspark.ml import classificationfrom pyspark.sql.functions import spark_partition_idfindspark.init()from pyspark.sql import SparkSessionspark = SparkSession.builder.appName('test1').getOrCreate()df =原创 2021-12-29 23:07:54 · 1182 阅读 · 0 评论 -
sklearn实现波士顿房价多元线性回归实验,附带startmodel评价模型
import numpy as npfrom sklearn.datasets import load_bostonfrom sklearn.linear_model import LinearRegressionboston = load_boston()#print(boston.data)print(boston.target)print(boston.feature_names)import pandas as pdbos = pd.DataFrame(boston.data)bo原创 2021-09-24 19:12:46 · 578 阅读 · 0 评论 -
Pandas的query语法
pandas提供了query语法,能用于复杂的操作,如过滤等import pandas as pddata = pd.read_csv("C:\\Users\\Administrator\\Desktop\\文档\\作业\\云计算与大数据实验一\\云计算与大数据实验一\\600519.csv", encoding='gb2312')def find1(): print("*************显示某个输入的日期的当日数据****************") a = input("原创 2021-09-24 19:10:34 · 540 阅读 · 0 评论 -
mlxtend实现简单的Apriori算法(关联算法)
关联算法有几个重要的概念:下面以官方教程为例[['Apple', 'Beer', 'Rice', 'Chicken'], ['Apple', 'Beer', 'Rice'], ['Apple', 'Beer'], ['Apple', 'Bananas'], ['Milk', 'Beer', 'Rice', 'Chicken'], ['Milk', 'Beer', 'Rice'],原创 2021-09-12 10:53:08 · 2101 阅读 · 0 评论 -
matplotlib的中文显示问题的解决
import matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus']=False原创 2021-08-03 20:04:03 · 97 阅读 · 0 评论 -
python的sklearn分析酒店评分影响因素
酒店的评价不外乎设施,位置便利性,卫生和服务质量几个因素,我从数据超市下载一个数据集,将其中几个评分清洗出来截图如下#多元回归 分析获得客户评价对推荐人数的影响import pandas as pdimport statsmodels.api as smfrom sklearn.linear_model import LinearRegressionfilename = "../../data/各项评分.xls"data = pd.read_excel(filename)print(da原创 2021-01-02 22:36:14 · 2108 阅读 · 0 评论 -
python数据分析与挖掘实战的混淆矩阵纠错
#-*- coding: utf-8 -*-#使用神经网络算法预测销量高低from keras.models import Sequentialfrom keras.layers.core import Dense, Activationimport pandas as pdfrom cmplot import *#参数初始化from numpy import shapefrom 决策树.data.cm_plot import cm_plotinputfile = 'D:/Pytho原创 2020-10-06 17:22:39 · 362 阅读 · 0 评论 -
Matlab创建视频
先打开一张图片#读取图片I=imread('1.jpg')#创建视频k=VideoWriter('CAT.avi');#打开open(k);#插入帧writeVideo(k,I);#关闭K=close(k);同一个目录下会出现新的视频,但有个问题matlab创建视频格式为avi,不知道如何修改...原创 2020-09-27 22:14:15 · 278 阅读 · 0 评论 -
Python数据分析与挖掘实战的决策树纠错
#导入必要的库import osimport xlrdfrom sklearn.feature_extraction import DictVectorizerimport csvfrom sklearn import preprocessingfrom sklearn import treeimport pandas as pd"""""data[u'销量'][(data[u'销量']=='高')]= "1"data[u'是否有促销'][(data[u'是否有促销']=='是')]=原创 2020-09-24 10:18:24 · 164 阅读 · 0 评论 -
Matlab用for循环实现图片上下反转
#读取图片 相同目录下l=imread('1.jpg')#处理图片需要建立矩阵#305指的是图片的宽度for i=1:305j=int16(i);m=int16(710);n=a(j,:,:);k=a(m-j,:,:);a(m-j,:,:)=n;a(j,:,:)=k;end;原创 2020-09-09 21:46:36 · 1412 阅读 · 0 评论 -
pandas的相关系数,并绘制饼图
import pandas as pdimport numpy as npfrom matplotlib import pyplot as pltfrom matplotlib import font_managermy_font = font_manager.FontProperties(fname="C:/Windows/Fonts/msyhbd.ttc")file = "D:/python/电影票房/10231_20190831.xlsx";data = pd.read_excel(fil原创 2020-08-29 20:56:22 · 1221 阅读 · 0 评论 -
pandas的索引
#pandas的iloc是通过 索引位置获取,修改数据 loc是通过标签修改数据#获取第2行到第六行(索引为5)的第二列到第六列数据 d.iloc[2:5,[2,5]]#修改第二行第六列的数据d.iloc[2,5]=70#标签为B行E列的数据d.loc["B","E"]=17#布尔索引 比较A列大于12的数据d["A"]>12d[(d["A"]>12)&(d["F"]>30)]...原创 2020-08-28 10:37:15 · 221 阅读 · 0 评论 -
python的DataFrame数据类型
#DataFrame数据类型适用高维数组 index行索引 cloumns 列索引d = pd.DataFrame(np.arange(36).reshape(6,6),index = list(string.ascii_uppercase[:6]), columns=list(string.ascii_uppercase[:6]))#数据维度d.ndim#数据值d.values#矩阵形状d.shape#前几行d.head(1)#后几行d.tail(1)#矩阵概述d.de原创 2020-08-27 21:44:04 · 8457 阅读 · 0 评论 -
pandas的Series数据类型
pandas的Series的数据用于低维的,且数据烈性必须一致#string.ascii_uppercase 以A-J为索引生成Series数据类型t = pd.Series(np.arange(10),index= list(string.ascii_uppercase[:10]))#以字典类型生成数据a = {string.ascii_uppercase[i]: i for i in range(10)}pd.Series(a)#修改Series的索引 value不存在则赋值为nan原创 2020-08-27 21:07:25 · 1007 阅读 · 0 评论 -
numpy的切片和索引操作
#建立一个6*6的矩阵a = np.arange(36).reshape(6,6)#取第一行a[1]#取第二列a[:,1]#取一到六行,步长为3a[1:6:3]#取一到六行,步长为3,再取1到6列步长为2a[1:6:3,1:6:2]原创 2020-08-26 21:59:52 · 180 阅读 · 0 评论 -
numpy的转置,互换和拼接
#转置t=np.arange(27).reshape(3,3,3)#适合低维数组(二维以内)t.T#t.transpose()t.swapaxes(1,0)原创 2020-08-26 21:34:46 · 679 阅读 · 0 评论 -
numpy的广播
#造数k=np.arange(0,11)#修改类型 修改为3行4列k=k.reshape(3,4)#修改为一列k=np.arange(12).reshape(12,1)简单的加减法与相同类型的数组的加法与不同类型的数组的的加减法(存在列或行相同)原创 2020-08-25 21:41:00 · 111 阅读 · 0 评论 -
matplotlib画折线图
# coding=utf-8from matplotlib import pyplot as pltimport randomimport matplotlibfrom matplotlib import font_manager#初始化字体 my_font = font_manager.FontProperties(fname="C:/Windows/Fonts/msyhbd.ttc")#另外一种设置字体的方式#my_font = font_manager.FontProperties原创 2020-08-24 16:40:59 · 123 阅读 · 0 评论