数据挖掘
hustfc
这个作者很懒,什么都没留下…
展开
-
python 统计缺失值,异常值,画箱型图
import pandas as pdcatering_sale = 'B:\pycharm\DataMining\catering_sale.xls'data = pd.read_excel(catering_sale, index_col=u'日期') # 指定主码,有中文出现的时候,需要加udescribe = data.describe()print(describe)cou...原创 2018-07-03 10:53:58 · 5831 阅读 · 0 评论 -
python 数据基本分析
import pandas as pdcatering_sale = 'B:\pycharm\DataMining\catering_sale.xls'data = pd.read_excel(catering_sale, index_col=u'日期')data = data[(data[u'销量'] > 400) & (data[u'销量'] < 5000)] #过...原创 2018-07-03 11:37:09 · 702 阅读 · 0 评论 -
python决策树sklearn.tree、graphviz
根据天气的好坏、是否是周末、是否促销来判断销量的高低,对此使用决策树来决策 数据预处理import pandas as pdfilename = 'B:\pycharm\DataMining\data\sales_data.xls'data = pd.read_excel(filename, index_col='No')data[data == u'好'] = 1data[da...原创 2018-07-10 10:20:44 · 5365 阅读 · 0 评论 -
使用corr()计算相关系数
import pandas as pdcatering_sale = '.\data\catering_sale_all.xls'data = pd.read_excel(catering_sale, index_col=u'日期')#print(data)print(data.corr()) #相关系数矩阵,即给出任意两款菜之间的相关系数print(data.corr()[u'百合...原创 2018-07-03 15:29:11 · 35726 阅读 · 1 评论 -
python画图 折线图 饼图 柱状图
折线图import numpy as npfrom matplotlib import pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签 plt.reParams是一个配置表plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号plt.fi...原创 2018-07-03 16:48:31 · 1258 阅读 · 0 评论 -
python主成分分析PCA
主成分PCA分析的基本步骤:· 对数据进行归一化处理(代码中并非这么做的,而是直接减去均值) · 计算归一化后的数据集的协方差矩阵 · 计算协方差矩阵的特征值和特征向量 · 保留最重要的k个特征(通常k要小于n),也可以自己制定,也可以选择一个阈值,然后通过前k个特征值之 和减去后面n-k个特征值之和大于这个阈值,则选择这个k · 找出k个特征值对应的特征向量 · 将m...原创 2018-07-06 11:43:11 · 3506 阅读 · 0 评论