算法--偏差,方差,标准差,协方差,相关系数及相关理解

1 偏差与方差

  • 偏差(bias):描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如下图第二行所示。

  • 方差(variance):描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如下图右列所示。
    这里写图片描述

  • 方差公式
    这里写图片描述
    Var(x)
    =E((x−E(x))2)
    =E(x2−2xE(x)+(E(x))2)
    =E(x2)−2E(x)E(x)+(E(x))2
    =E(x2)−2(E(x))2+(E(x))2
    =E(x2)−(E(x))2
    其实两个公式是等价的

  • 样本方差公式:
    这里写图片描述
    式中:这里写图片描述是样本的均值

  • 标准差(就是方差的平方根)
    标准差公式:
    这里写图片描述
    样本标准差公式:
    这里写图片描述
    为什么使用标准差?
    与方差相比,使用标准差来表示数据点的离散程度有3个好处:

  • 表示离散程度的数字与样本数据点的数量级一致,更适合对数据样本形成感性认知。依然以上述10个点的CPU使用率数据为例,其方差约为41,而标准差则为6.4;两者相比较,标准差更适合人理解。

  • 表示离散程度的数字单位与样本数据的单位一致,更方便做后续的分析运算。

  • 在样本数据大致符合正态分布的情况下,标准差具有方便估算的特性:66.7%的数据点落在平均值前后1个标准差的范围内、95%的数据点落在平均值前后2个标准差的范围内,而99%的数据点将会落在平均值前后3个标准差的范围内。

2 协方差和相关系数

  • 1先贴一个链接 = =
    https://www.zhihu.com/question/20852004

  • 2 协方差covariance

  • 定义

  • 两个随机变量的协方差被定义为:
    这里写图片描述
    Cov(x,y)=E( (x−E(x) (y−E(y) )
    因此方差是一种特殊的协方差。当x=y时:Cov(x,y)=Var(x)=Var(y)。

  • 直观理解
    协方差表示的是两个变量总体误差的方差,这与只表示一个变量误差的方差不同。  如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值

  • 协方差矩阵(必定是一个方阵)
    covariance matrix

  • 2 相关系数

  • 相关系数通过方差和协方差定义。两个随机变量的相关系数被定义为:
    这里写图片描述
    这里写图片描述

  • 性质

    • 1、有界性
      相关系数的取值范围为-1到1,其可以看成是无量纲的协方差。
    • 2、统计意义
      值越接近1,说明两个变量正相关性(线性)越强,越接近-1,说明负相关性越强,当为0时表示两个变量没有相关性。

3 PCA主元分析法

  • 这个链接很好
    http://blog.codinglabs.org/articles/pca-tutorial.html

4 DataFrame实现

https://blog.csdn.net/u011707148/article/details/76973946
主要是 DataFrame.corr()和DataFrame.corrwith()两个函数

  • 3
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值