自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 数据挖掘之逻辑回归练习

逻辑回归调用sklearn包使用步骤: (1) 导入模型。调用逻辑回归LogisticRegression()函数。 (2) fit()训练。调用fit(x,y)的方法来训练模型,其中x为数据的属性,y为所属类型。 (3) predict()预测。利用训练得到的模型对数据集进行预测,返回预测结果。 代码: from sklearn.linear_model import Log...

2018-05-23 10:39:17 489

原创 数据挖掘之wordcloud词云

#-*- coding:utf-8 -*- """ 优化词云 显示指定图片 """ import jieba import matplotlib.pyplot as plt from wordcloud import WordCloud,STOPWORDS,ImageColorGenerator from scipy.misc import imread #引入读取图片的库 import ...

2018-05-19 11:51:00 338

原创 数据挖掘之关联规则练习

1.关联规则 关联规则(Association Rules)是反映一个事物与其他事物之间的相互依存性和关联性,如果两个或多个事物之间存在一定的关联关系,那么,其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系。 关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事,通过对超市购物篮数据进行分析...

2018-05-17 11:10:03 7558

原创 数据挖掘之PCA降维练习

参考文章:https://blog.csdn.net/eastmount/article/details/53285192 特征降维是指采用一个低纬度的特征来表示高纬度。特征降维一般有两类方法:特征选择(Feature Selection)和特征提取(Feature Extraction)。 1.特征选择是从高纬度的特征中选择其中的一个子集来作为新的特征。最佳子集是以最...

2018-05-17 09:57:11 1108

原创 数据挖掘之线性回归练习

# -*- coding: utf-8 -*- from sklearn import datasets from sklearn import linear_model import matplotlib.pyplot as plt import numpy as np diabetes = datasets.load_diabetes() #获取一个特征 diabetes_x...

2018-05-16 15:41:32 2614

原创 数据挖掘之决策树练习

决策树是基于树结构来进行决策,一颗决策树包括一个根结点、若干个内部结点和若干个叶结点。如何进行划分属性?1、最常用的是通过计算信息增益。信息熵是度量样本集合纯度最常用的一种指标。值越小,纯度越高。是不确定性值。信息增益用来选择划分属性,选择最小的那个。如果根节点的信息熵为0.998,则表示不确定性为0.998,当前属性的信息增益为0.109,则表示不确定性减少了0.109。 决策树构建的基本步骤如...

2018-05-15 16:34:52 1377

原创 数据挖掘之K-means聚类练习

参考点击打开链接 K-means聚类是一种无监督学习,是将数据集分为若干个不相交的子集,每个子集称为一个“簇”。 步骤: 1. 设置k值,即希望将数据集分为k个类 2. 从数据集中随机选取K个数据点,作为质心 3. 对剩余的数据,计算每个数据与k个质心的距离,离哪个最近,该数据就是这个簇的 4. 初始分类后,计算每个簇的均值,重新确定每个簇的质心 5. 如果新的质心与上一次质心的差别...

2018-05-14 19:19:00 2792 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除