- 博客(7)
- 收藏
- 关注
原创 数据挖掘之逻辑回归练习
逻辑回归调用sklearn包使用步骤: (1) 导入模型。调用逻辑回归LogisticRegression()函数。 (2) fit()训练。调用fit(x,y)的方法来训练模型,其中x为数据的属性,y为所属类型。 (3) predict()预测。利用训练得到的模型对数据集进行预测,返回预测结果。 代码: from sklearn.linear_model import Log...
2018-05-23 10:39:17 489
原创 数据挖掘之wordcloud词云
#-*- coding:utf-8 -*- """ 优化词云 显示指定图片 """ import jieba import matplotlib.pyplot as plt from wordcloud import WordCloud,STOPWORDS,ImageColorGenerator from scipy.misc import imread #引入读取图片的库 import ...
2018-05-19 11:51:00 338
原创 数据挖掘之关联规则练习
1.关联规则 关联规则(Association Rules)是反映一个事物与其他事物之间的相互依存性和关联性,如果两个或多个事物之间存在一定的关联关系,那么,其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系。 关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事,通过对超市购物篮数据进行分析...
2018-05-17 11:10:03 7558
原创 数据挖掘之PCA降维练习
参考文章:https://blog.csdn.net/eastmount/article/details/53285192 特征降维是指采用一个低纬度的特征来表示高纬度。特征降维一般有两类方法:特征选择(Feature Selection)和特征提取(Feature Extraction)。 1.特征选择是从高纬度的特征中选择其中的一个子集来作为新的特征。最佳子集是以最...
2018-05-17 09:57:11 1108
原创 数据挖掘之线性回归练习
# -*- coding: utf-8 -*- from sklearn import datasets from sklearn import linear_model import matplotlib.pyplot as plt import numpy as np diabetes = datasets.load_diabetes() #获取一个特征 diabetes_x...
2018-05-16 15:41:32 2614
原创 数据挖掘之决策树练习
决策树是基于树结构来进行决策,一颗决策树包括一个根结点、若干个内部结点和若干个叶结点。如何进行划分属性?1、最常用的是通过计算信息增益。信息熵是度量样本集合纯度最常用的一种指标。值越小,纯度越高。是不确定性值。信息增益用来选择划分属性,选择最小的那个。如果根节点的信息熵为0.998,则表示不确定性为0.998,当前属性的信息增益为0.109,则表示不确定性减少了0.109。 决策树构建的基本步骤如...
2018-05-15 16:34:52 1377
原创 数据挖掘之K-means聚类练习
参考点击打开链接 K-means聚类是一种无监督学习,是将数据集分为若干个不相交的子集,每个子集称为一个“簇”。 步骤: 1. 设置k值,即希望将数据集分为k个类 2. 从数据集中随机选取K个数据点,作为质心 3. 对剩余的数据,计算每个数据与k个质心的距离,离哪个最近,该数据就是这个簇的 4. 初始分类后,计算每个簇的均值,重新确定每个簇的质心 5. 如果新的质心与上一次质心的差别...
2018-05-14 19:19:00 2792 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人