第4节:重要的Python数据分析类库
1、NumPy(Numerical Python)是Python科学计算的基础包
提供了快速高效的多维数组对象ndarray
提供了对数组执行元素级计算以及直接对数组执行数学运算的函数
提供了读写硬盘上基于数组的数据集的工具
提供了线性代数运算、傅里叶变换、随机数生成功能
提供了成熟的C API,用于Python插件和原生C、C++、Fortran代码访问NumPy的数据结构和计算工具
NumPy为Python提供快速的数组处理能力
NumPy在数据分析方面作为在算法和库之间传递数据的容器
对于数值型数据,NumPy数组在存储和处理数据时要比内置的Python数据结构高效得多
由低级语言编写的库可以直接操作NumPy数组中的数据,无需进行任何数据复制工作
2、pandas是Python的一个数据分析包(最初由金融数据分析工具开发而来)
pandas为时间序列分析提供了很好支持
pandas是基于NumPy的一种工具,是为了解决数据分析任务而创建的
pandas纳入了大量库和一些标准的数据模型,提供了高效的操作大型数据集所需的工具
pandas提供了大量能使我们快速便捷处理数据的函数和方法
pandas是使Python成为强大而高效数据分析环境的重要因素之一
3、Matplotlib是Python的一个2D绘图库
它以各种硬拷贝格式和跨平台的交互式环境,生成用于出版质量级别的图形
Matplotlib操作简单,几行代码就可以生成折线图、直方图、功率谱图、条形图、错误图、散点图等
提供了pylab的模块,其中包括了NumPy和pyplot中许多常用的函数,方便用户快速进行计算和绘图
4、SciPy是一组专门解决科学计算中各种标准问题域的包的集合
5、scikit-learn是最为流行的Python的通用机器学习工具包
6、stats models是一个统计分析包,包含经典统计学和经济计算学的算法