用来衡量两个变量之间的相关性大小
总体和样本
- 总体的均值——平均水平
- 总体的标准差——偏离程度
相关系数
协方差:
协方差理解:
- 如果X、Y变化方向相同,乘积为正;如果X、Y变化方向一直保持相同,则协方差为正
- 如果X、Y变化方向一直相反,则协方差为负;
- 如果X、Y变化方向无规律,那么累加后正负抵消
注意:协方差的大小和两个变量的两个有关,不适合做比较,so 引入Pearson相关系数
总体Pearson相关系数
样本皮尔逊相关系数
相关性可视化
理解误区
In statistics, the Pearson product-moment correlation coefficient is a measure of the linear correlation between two variables X and Y,giving a value between +1 and -1 inclusive,where 1 is total positie correlation,0 is no correlation, and -1 is total negative correlation. It is widely used in the sciences as a measure of the degree of linear dependence betwwen two variables (from wiki)
- 针对线性相关
总结:
- 如果两个变量本身就是线性关系没那么皮尔逊相关系数绝对值大的就是相关性强,小的就是相关性弱
- 在不确定两个变量是什么关系的情况下,即是算出皮尔逊相关系数,发现很大,也不能说明那两个变量线性相关,甚至不能说他们相关,必须画出散点图来看
描述性统计
Matlab 中基本统计量的函数:
函数名 | 功能 |
---|---|
min | 数组最小元素 |
mink | 计算数组的k个最小元素 |
max | 数组最大元素 |
maxk | 计算数组K个最大元素 |
bounds | 最小元素和最大元素 |
topkrows | 按排序顺序的前若干行 |
mean | 数组的均值 |
median | 数组中的中位数值 |
mode | 数组的众数 |
skewness | 数组的偏度 |
kurtosis | 数组的峰度 |
std | 标准差 |
var | 方差 |
皮尔逊相关系数计算
- corrcoef函数
R = corrcoef(A)
% 返回A的相关系数的矩阵,其中A的列表示随机变量(指标),行表示观测值(样本)
R = corrcoef(A,B)
% 返回两个随机变量A和B之间的系数