主要的数据挖掘模块:
- Numpy
- Pandas
- matplotlib
- StatsModels
- Scipy
- Scikit-Learn
- Keras
- Gensim
pandas中的一些函数
DataFrame或者Series的对象
方法名 | 函数功能 |
---|---|
sum() | 求和(按列) |
mean() | 算数平均数 |
var() | 方差 |
std() | 标准差 |
corr() | Spearman(Pearson)相关系数 |
cov() | 协方差矩阵 |
skew() | 偏度(三阶矩) |
kurt() | 峰度(四阶矩) |
describe() | 给出样本的基本描述 |
累积计算(cum): 计算前1,2,3…n的
方法名 | 函数功能 |
---|---|
cumsum | 前n的和 |
cumprod | 积 |
cummax | 最大值 |
cummin | 最小 |