一、常用的Python 库介绍
Numpy ( Numerical Python ) 主要包含以下功能:
快速高效的多维数组对象ndarray
用于数组执行元素级计算以及直接对数组执行数学运算的函数
用于读写硬盘上基于数组的数据集工具
线性代数运算、傅里叶变换以及随机数生成
用于将C,C++,Fortran代码集成到python工具
除了为Python提供快速的数据处理能力,还可以作为算法之间传递数据的容器,在存储处理数据时比内置的python数据结构高效;此外,低级语言C,Fortarn编写的库可以直接操作Numpy数组中的数据,无需复制粘贴。
Pandas
Pandas 的对象是DataFrame,它是一个面向列的二维表结构,且含有行标和列标( R的data.frame 对象所提供的功能只是DataFrame对象所提供功能的一个子集 )
matplotlib
绘制图表的python库
Ipython
科学计算标准工具集
Scipy
Scipy是一组解决科学计算中各种标准问题域的包的集合,主要包含如下的包:
scipy.integrate:数值积分例程和微分方程求解器
scipy.linalg:扩展了由numpy.linalg提供的线性代数例程和矩阵分解功能
scipy.optimize:函数优化(最小化器)以及根查找算法
scipy.singal:信号处理工具
scipy.sparse:系数矩阵和稀疏线性系统求解器
scipy.special:SPRCFUN(这是一个常用的数学函数(如伽马函数)的Fortran库)
scipy.stats:标准连续和离散概率分布(如密度函数,采样器,连续分布函数等)、各种统计检验方法,以及更好的描述统计法
scipy.weave:利用内联c++代码加速数组计算的工具
NumPy+SciPy 可代替Matlab的计算功能
引用惯例:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
数据规整:将非结构化和(或)散乱数据处理为结构化或整洁形式的整个过程