在Python的世界中为数据挖掘产生了很多实用的库,本文主要列出一些常见库的说明,安装,以及使用的小例子,文中的安装以及演示环境都是基于Centos 6.5 的Desktop Mini版进行演示
- Numpy
- 介绍
NumPy系统是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix))。NumPy(Numeric Python)提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处理,以及精密的运算库。专为进行严格的数字处理而产生。多为很多大型金融公司使用,以及核心的科学计算组织如:Lawrence Livermore,NASA用其处理一些本来使用C++,Fortran或Matlab等所做的任务。 - 安装
- yum install gcc
- yum install gcc-c++
- yum install python-devel
- pip install numpy
- 详细说明可以参考:http://old.sebug.net/paper/books/scipydoc/numpy_intro.html
- 介绍
- Scipy
- 介绍
SciPy函数库在NumPy库的基础上增加了众多的数学、科学以及工程计算中常用的库函数。例如线性代数、常微分方程数值求解、信号处理、图像处理、稀疏矩阵等等
- 安装
- 需要先安装好Numpy
- yum install lapack lapack-devel blas blas-devel
- pip install scipy
- 详细说明可以参考:http://old.sebug.net/paper/books/scipydoc/scipy_intro.html
- 介绍
- Matplotlib
- 介绍
matplotlib 是python最著名的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地进行制图。而且也可以方便地将它作为绘图控件,嵌入GUI应用程序中。
它的文档相当完备,并且 Gallery页面 中有上百幅缩略图,打开之后都有源程序。因此如果你需要绘制某种类型的图,只需要在这个页面中浏览/复制/粘贴一下,基本上都能搞定
- 安装
- yum -y install freetype-devel
- yum -y install libpng-devel
- pip install Matplotlib
- 详细说明可以参考:http://old.sebug.net/paper/books/scipydoc/matplotlib_intro.html#
- 介绍
- Pandas
- 介绍
pandas 是基于 Numpy 构建的含有更高级数据结构和工具的数据分析包
类似于 Numpy 的核心是 ndarray,pandas 也是围绕着 Series 和 DataFrame 两个核心数据结构展开的 。Series 和 DataFrame 分别对应于一维的序列和二维的表结构
- 安装
- 依赖numpy
- pip install pandas
- 如果需要处理Excel文件,需要执行 pip install xlrd
- 演示代码
# -*- coding: utf-8 -*-
from pandas import Series,DataFrame
import pandas as pd
s=Series([1,2,3],index=['a','b','c'])
d=DataFrame([[1,2,3],[4,5,6]],columns=['a','b','c'])
#head() method will return top 5 records
print s.head()
print s.describe()
print d.head()
print d.describe()
#read data from xml file
excel_data=pd.read_excel("./server.xlsx")
print excel_data.head
- 介绍
- StatsModels
- 介绍
Statismodels是一个Python包,提供一些互补scipy统计计算的功能,包括描述性统计和统计模型估计和推断。
主要功能- 线性回归模型:广义最小二乘法(Generalized least squares),普通最小二乘法(ordinary least squares)
- glm
- discrete:离散变量的回归,基于最大似然估计
- rlm
- tsa:时间序列分析模型
- nonparametric
- datasets
- stats:常用统计检验
- iolib:读Stata的.dta格式,输出ascii、latex和html
- 安装
- 依赖numpy,scipy,Matplotlib
- pip install StatsModels
- 介绍
- Scikit-Learn
- 介绍
scikit-learn是一个和机器学习相关的库,如果不是最流行的,那么也算得上是所有语言中流行的机器学习库之一。它拥有大量的数据挖掘和数据分析功能,使其成为研究人员和开发者的首选库。
- 安装
- 依赖numpy,scipy,Matplotlib
- pip install Scikit-Learn
- 介绍
- Keras
- 介绍
Keras是基于Theano的一个深度学习框架,它的设计参考了Torch,用Python语言编写,是一个高度模块化的神经网络库,支持GPU和CPU
- 安装
- 依赖numpy,scipy,theano
- pip install keras
- 介绍
- Gensim