方法名 | 函数功能 |
sum() | 列的和 |
main() | 算数平均数 |
var() | 方差 |
std() | 标准差 |
corr() | 皮尔逊相关系数 |
cov() | 协方差矩阵 |
skew() | 三阶矩 偏度 |
kurt() | 四阶矩 峰度 |
describe() | 基本描述 |
协方差就是这样一种用来度量两个随机变量关系的统计量,协方差的结果有什么意义呢?如果结果为正值,则说明两个随机变量是正相关的(从协方差可以引出“相关系数”的定义),也就是说一个人越猥琐就越受女孩子欢迎,嘿嘿,那必须的~结果为负值就说明负相关的,越猥琐女孩子越讨厌,可能吗?如果为0,线性不相关
皮尔逊系数是协方差和标准差的商
偏度(Skewness): 是对Sample构成的分布的对称性状况的描述
正态分布的 Skewness=0。如果 Skewness>0 代表波形有右侧长尾,如果 Skewness<0 代表波形有左侧长尾。
Kurtosis(峰度): 是对Sample构成的分布的峰值是否突兀或是平坦的描述
态分布的峰度为3。当时间序列的曲线峰值比正态分布的高时,峰度大于3(图像扁平);当比正态分布的低时,峰度小于3(图像更瘦)
属性规约
属性规约方法 | 方法描述 |
合并属性 | 旧属性合并 |
逐步向前选择 | 从一个空属性集开始,每次从当前属性集中选择最优的一项加入该属性集,直到满足一定阈值 |
逐步向后删除 | 从满属性集开始……删除 |
决策树归纳 | 对初始数据集归纳分类归纳,获得一个初始决策树,删除没出现在该决策树上的属性 |
主成分分析PCA | 用较少的变量解释原始数据的大部分变量 |
数据预处理
函数名 | 函数功能 | 所属库 |
interpolate | 一维、高维数据插值 | scipy |
unique | 去除重复元素,他是np对象的方法名 | pandas/numpy |
isnoll | 是否为空 | pandas |
PCA | 主成分分析 | scikit-learn |
random | 生成随机矩阵 | numpy |