数据——基本统计总结

1、频率、众数:分类属性的众数是具有最高频率的值
2、百分位数:有序数据
3、位置度量:均值和中位数
均值对离群值非常敏感,中位数可以更稳健的提供值中间的估计,或者使用截断均值(指定0~100的百分位数p,丢弃高端和低端p/2%的数据后,均值计算)
中位数是p=100%时的截断均值;标准均值是p=0%时的截断均值
4、散步度量:极差和方差
极差:max-min;方差:1/(m-1)Σ(xi-x)²
方差使用均值计算得到,均值受离群值影响,方差也受离群值影响
解决:使用其他方式的度量 绝对平均误差1/mΣ|xi-x|、中位数绝对误差median{|x1-x|,|x2-x|…,|xm-x|}、四分位数极差X75% - X25%等
5、协方差矩阵conv(xi, xj) = 1/(m-1)Σ(xki - xi)(xkj - xj)
两个属性之间的协方差表述两个属性一起变化 并依赖于变量大小的度量。0~1范围0表示两个变量不具有线性关系,协方差可以用来衡量两个变量之间的关联程度,但是不能只是片面的靠协方差决定两个变量之间的关联程度,相关性更可取
6、倾斜度:度量值对称地分布在均值附近的程度

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值