2018年05月_qq_39409944

原创数据挖掘之逻辑回归练习

逻辑回归调用sklearn包使用步骤： (1) 导入模型。调用逻辑回归LogisticRegression()函数。 (2) fit()训练。调用fit(x,y)的方法来训练模型，其中x为数据的属性，y为所属类型。 (3) predict()预测。利用训练得到的模型对数据集进行预测，返回预测结果。代码： from sklearn.linear_model import Log...

2018-05-23 10:39:17 489

原创数据挖掘之wordcloud词云

#-*- coding:utf-8 -*- """ 优化词云显示指定图片 """ import jieba import matplotlib.pyplot as plt from wordcloud import WordCloud,STOPWORDS,ImageColorGenerator from scipy.misc import imread #引入读取图片的库 import ...

2018-05-19 11:51:00 338

原创数据挖掘之关联规则练习

1.关联规则关联规则（Association Rules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析...

2018-05-17 11:10:03 7558

原创数据挖掘之PCA降维练习

参考文章：https://blog.csdn.net/eastmount/article/details/53285192 特征降维是指采用一个低纬度的特征来表示高纬度。特征降维一般有两类方法：特征选择（Feature Selection）和特征提取（Feature Extraction）。 1.特征选择是从高纬度的特征中选择其中的一个子集来作为新的特征。最佳子集是以最...

2018-05-17 09:57:11 1108

原创数据挖掘之线性回归练习

# -*- coding: utf-8 -*- from sklearn import datasets from sklearn import linear_model import matplotlib.pyplot as plt import numpy as np diabetes = datasets.load_diabetes() #获取一个特征 diabetes_x...

2018-05-16 15:41:32 2614

决策树是基于树结构来进行决策，一颗决策树包括一个根结点、若干个内部结点和若干个叶结点。如何进行划分属性？1、最常用的是通过计算信息增益。信息熵是度量样本集合纯度最常用的一种指标。值越小，纯度越高。是不确定性值。信息增益用来选择划分属性，选择最小的那个。如果根节点的信息熵为0.998，则表示不确定性为0.998，当前属性的信息增益为0.109，则表示不确定性减少了0.109。决策树构建的基本步骤如...

2018-05-15 16:34:52 1377

原创数据挖掘之K-means聚类练习

参考点击打开链接 K-means聚类是一种无监督学习，是将数据集分为若干个不相交的子集，每个子集称为一个“簇”。步骤： 1. 设置k值，即希望将数据集分为k个类 2. 从数据集中随机选取K个数据点，作为质心 3. 对剩余的数据，计算每个数据与k个质心的距离，离哪个最近，该数据就是这个簇的 4. 初始分类后，计算每个簇的均值，重新确定每个簇的质心 5. 如果新的质心与上一次质心的差别...

2018-05-14 19:19:00 2792 1

qq_39409944的博客