python 下数据挖掘包sklearn

最新推荐文章于 2021-04-18 15:46:51 发布

liujun-st

最新推荐文章于 2021-04-18 15:46:51 发布

阅读量2.2k

点赞数

分类专栏： Python3

Python3 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

来源：http://tieba.baidu.com/f?kz=3226108693&pid=55515628022

还有：http://my.oschina.net/u/175377/blog/84420和http://blog.csdn.net/CRISPY_RICE/article/details/26490385

1. 闲话篇

机器学习(ML)，自然语言处理(NLP)，神马的，最近太火了。。。不知道再过几年，大家都玩儿ML，还会不会继续火下去。。。需要有人继续再添点柴火才行。本人仅仅是一个迷途小书童，知识有限，还望各位ML大神多多指点:)。

最近想系统地收拾一下ML的现有工具，发现比较好的应该是这个 http://scikit-learn.org/stable/index.html 。
对于初学和进阶阶段的ML研究者们是个不错的选择。不过美中不足的是少了Large-scale ML的一些，毕竟这是单机的。后面琢磨琢磨，写个ADMM(今年ICML剧多相关的论文)的吧，这个之前在MSRA的Learning Group做过一个Turtorial.
尤其是他的参考手册，更是没有太多废话，都能一针见血地讲明重点： http://scikit-learn.org/stable/user_guide.html
其实不要指望这个工具包能有啥新的东西，不过就是这些经典的东西，要是你真掌握了，也基本God Like！了。:)，特别是你用ML创业的时候，可能真能用上一两个思路，也就是被训练出来的思想估计是大学能留下来的，剩下的都在狗肚子里。
我们来大致浏览一下这个系统的ML工具的功能，整体内容较多，我们逐步更新，想具体了解哪个部分的童鞋可以留言，我一下子还真很难都详细介绍（我会基本上保证一周更新一个小章节，逐步学习。首先弄懂模型原理，讲出来，然后使用对应数据实战一下，贴出代码，作图，最后利用测试结果适当比较一下模型之间的差异），所有的代码，我都会后续贴到CSDN或者Github上面。

---------------------------------------------------华丽丽的分割线---------------------------------------------------------

2. 配置篇
推荐学习配置：python 2.7, pycharm IDE （这个Python的IDE不错，推荐大家用下，如果用过Eclipse写Java，这个上手会很快）， numpy, scipy。其他还有一些需要下载的包，大家可以边配置边有问题留言，建议在windows下面弄弄就行，我基本不用Linux。
有些小伙伴建议我也详细讲讲在windows下的配置。的确，这一系列的配置还真心没有那么简单，我特地找了一台windows7 Ultimiate SP1 x64 的裸机来重现一下整体配置过程。
首先是Python 2.7 （切记Python 3.x 和2.x的版本完全不是一路货，不存在3.x向下兼容的问题，所以，如果哪位小伙伴为了追求软件版本高而不小心安装了python 3.x，我只能说。。好吧。。你被坑了。最简单的理解，你可以认为这两个Python版本压根就不是一门相同的编程语言，就连print的语法都不同）
1. Python 2.7.x 在 x64 windows平台下的解释器。具体下载地址： https://www.python.org/download/releases/2.7.8/ 注意64位的是这个 Windows X86-64 MSI Installer (2.7.8)
测试这个Python是否在你的环境里配置好，你可以在命令行里直接输入python，如果报错，那么你需要手动配置一下环境，这个大家上网搜就可以解决（简单说，在环境变量PATH里把你的Python的安装文件夹路径写进去）。
2. 然后安装Pycharm，这个是我在Hulu实习的时候用到过的IDE，还是涛哥推荐的，还不错。因为有正版收费的问题，推荐大家下载它的(community)版 http://www.jetbrains.com/pycharm/download/ 。安装好后，它应该会让你选择刚才安装好的Python的解释器，这样你就可以做一些简单的python编程了，用过eclipse的人，这个上手非常快。
3. 接着就需要配置跟sklearn有关的一系列Python的扩展包了。这个美国加州一个学校的一个非官方网站张贴了所有windows直接安装的版本 http://www.lfd.uci.edu/~gohlke/pythonlibs/ ，特别实用，大家到里面去下载跟python 2.7 amd64有关的安装包。然后直接下载运行即可。需要下载的一系列扩展包的列表（按照依赖顺序）：Numpy-MKL, SciPy, Scikit-learn。有了这些就可以学习Scikit-learn这个工具包了。
4. 此外，如果想像我一样，同时可以画图，那么就需要matplotlib，这个也有一个网站手册 http://matplotlib.org/contents.html ，同样也需要一系列扩展包的支持。使用matplotlib 需要如下必备的库，numpy, dateutil, pytz, pyparsing, six。都能从刚才我推荐的下载网站上获取到。
上面的一系列都搞定了，大家可以使用我第一个线性回归的代码（加粗的代码）测试一下，直接输出图像，最后还能保存成为png格式的图片。

------------------------------华丽丽的分割线------------------------------------------

3. 数据篇
用工具之前先介绍几个我会用到的数据
这里大部分的数据都是从这个经典的机器学习网站提供的：
https://archive.ics.uci.edu/ml/
sklearn.datasets里面集成了这个网站里的部分数据（刚接触Python的童鞋，需要一点点Python的知识，和Java类似，使用现成工具模块的时候，需要import一下，我们这个基于Python的机器学习工具包的全名是sklearn，这里介绍数据，所以下一个目录是datasets）。具体的Python代码：
import sklearn.datasets

数据一：波士顿房价（适合做回归），以后直接用boston标记
这行代码就读进来了
boston = sklearn.datasets.load_boston()
查询具体数据说明，用这个代码：
print boston.DESCR
输出如下：
Data Set Characteristics:

:Number of Instances: 506

:Number of Attributes: 13 numeric/categorical predictive

:Median Value (attribute 14) is usually the target

:Attribute Information (in order):
- CRIM per capita crime rate by town
- ZN proportion of residential land zoned for lots over 25,000 sq.ft.
- INDUS proportion of non-retail business acres per town
- CHAS Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
- NOX nitric oxides concentration (parts per 10 million)
- RM average number of rooms per dwelling
- AGE proportion of owner-occupied units built prior to 1940
- DIS weighted distances to five Boston employment centres
- RAD index of accessibility to radial highways
- TAX full-value property-tax rate per $10,000
- PTRATIO pupil-teacher ratio by town
- B 1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town
- LSTAT % lower status of the population
- MEDV Median value of owner-occupied homes in $1000*s
一共506组数据，13维特征，
比如第一个维度的特征是犯罪率，第六个是每个房子平均多少房间等等。
boston.data 获取这506 * 13的特征数据
boston.target 获取对应的506 * 1的对应价格

数据二：牵牛花（适合做简单分类），标记为Iris
import sklearn.datasets
iris = sklearn.datasets.load_iris()
iris.data 获取特征
iris.target 获取对应的类别
Data Set Characteristics:
:Number of Instances: 150 (50 in each of three classes)
:Number of Attributes: 4 numeric, predictive attributes and the class
:Attribute Information:
- sepal length in cm
- sepal width in cm
- petal length in cm
- petal width in cm
- class:
- Iris-Setosa
- Iris-Versicolour
- Iris-Virginica
这个数据基本是个ML的入门选手都知道，一共三类牵牛花，获取特征和对应的类别标签也是同上
一共150样本，3类，特征维度为4

数据三：糖尿病（回归问题），diabetes
这个数据包很奇怪，没有描述。我也到原本的UCI的网站上查了一下，也是没有太好的描述。
import sklearn.datasets
diabetes = sklearn.datasets.load_diabetes()
print diabetes.keys()
这样的输出只有data, targets。
我也观察了一下数据，感觉是经过额外的归一化处理的，原始的数据样貌已经看不出来了。。
下面这个图是我从网站上Copy下来的有限的描述，样本量为442，特征维度为10，每个特征元素的值都是连续的实数，在正负0.2之间。。目标这个整数值有可能是血糖。
Samples total 442
Dimensionality 10
Features real, -.2 < x < .2
Targets integer 25 - 346

数据四：手写数字识别（多类分类，10个类别，从0-9）digits
import sklearn.datasets
digits = sklearn.datasets.load_digits()
总体样本量：1797，每个类别大约180个样本，每个手写数字是一个8*8的图片，每个像素是0-16的整数值。

综上，大家可以加载相应的数据来玩，这几个数据算是比较有代表性的。后面会介绍如何利用SKLEARN工具下载更大规模的数据，比如MINIST的大规模的手写数字识别库等等。
总之，如果你想获取特征，就在*.data里，对应的类别或者回归值在*.target里面
光说不练不行，我对每个介绍的方法都会选用上面的Dataset实际测试一下，并且会酌情给出结果和图像。