科学运算库介绍
NumPy
提供真正的数组,相比Python
内置列表来说速度更快,NumPy
也是Scipy
、Matplotlib
、Pandas
等库的依赖库,内置函数处理数据速度是C
语言级别的,因此使用中应尽量使用内置函数。
Scipy
NumPy
和Scipy
让Python
有了MATLAB
味道。Scipy
依赖于NumPy
,NumPy
提供了多维数组功能,但只是一般的数组并不是矩阵。比如两个数组相乘时,只是对应元素相乘。Scipy提供了真正的矩阵,以及大量基于矩阵运算的对象与函数。
Scipy
包含功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理、图像处理、常微分方程求解等常用计算。
Matplotlib
Python
中著名的绘图库,主要用于二维绘图,也可以进行简单的三维绘图。
Pandas
Pandas
是Python
下非常强大的数据分析工具。它建立在NumPy
之上,功能很强大,支持类似SQL
的增删改查,并具有丰富的数据处理函数,支持时间序列分析功能,支持灵活处理缺失数据等。
Pandas
基本数据结构是Series
和DataFrame
。Series
就是序列,类似一维数组,DataFrame
则相当于一张二维表格,类似二维数组,它每一列都是一个Series
。为定位Series
中的元素,Pandas
提供了Index
对象,类似主键。
DataFrame
本质上是Series
的容器。
StatsModels
统计建模和计量经济学,包括描述统计、统计模型估计和推断。
Scikit-Learn
Scikit-Learn
依赖NumPy
、Scipy
和Matplotlib
,是Python
中强大的机器学习库,提供了诸如数据预处理、分类、回归、聚类、预测和模型分析等功能。
Keras
Keras
是基于Theano
的深度学习库,它不仅可以搭建普通神经网络,还可以搭建各种深度学习模型,如自编码器、循环神经网络、递归神经网络、卷积神经网络等,运行速度也很快,简化了搭建各种神经网络模型的步骤,允许普通用户轻松搭建几百个输入节点的深层神经网络,定制度也很高。
Genism
Genism
主要用来处理语言方面的任务,如文本相似度计算、LDA
、Word2Vec
等。