向上取整的方法_统计学基础干货:描述统计学的数值方法

一 位置的度量

1.平均数

  • 样本平均数

2988aca128302167404cbe0670ce2900.png
  • 总体平均数

a4742e27bb7af1024d4c246a62bc843f.png
  • 加权平均数

e5a4cff42daf75cc83859ffdcb76bbeb.png
  • 几何平均数

66d18b8ffcb679cd43adee77387e2cc0.png
  • 中位数

将数据按照从小到大排列:

  • 对于偶数个观测值,中位数为中间两数的平均值。
  • 对于奇数个观测值,中位数为中间数。
  • 众数

出现最多的数据,可能不止一个。

  • 百分位数

至少有p%的数据小于等于该值,至少有1-p%的数据大于等于该值。

将数据按照从小到大的顺序排列,并计算n*p%:

  • 若为整数,则取该值与下一位数的平均数。
  • 若不为整数,则向上取整。
  • 中位数、四分位数等是特殊的百分位数。

变异程度的度量

1.极差与四分位数间距

  • 极差:最大值与最小值之差

475cbcd94988e436e46c97390889cd6a.png
  • 四分位数间距(Interquantile Range,IQR):四分位数之差

9032ed1496112c64c634f065a0e0f5cb.png

极差与四分位数间距都是变异程度的简单度量,相比较而言,极差更容易受异常值影响,因此多采用四分位数间距。

2.方差与标准差

方差是对数据总体变异程度的度量。

  • 总体方差:

ea4f307a8632b0d9f90681bcd848abaa.png
  • 样本方差:

6eb589220efbbe3c682e50ed4d3ab4ad.png

其中样本方差为无偏方差。

  • 无偏性:统计量的估计值的均值等于该统计量

1c721882720dc0997dfd81e0cc02ad3e.png

证明:其中μ为总体均值,σ为总体标准差

62bac6304949f104e13c6604b3866908.png

对于随机变量X

191972c06ef8cfd2e3a511ad83c682e9.png

故有

ad3dd5c08f0a3d995737e00a3511b453.png

同理,由于

aaf58e2ae1b9d15f4ad600c9da3ae851.png

9cc584ccc4c1b10d3e82a416d4c1ce0a.png

标准差(s):方差的算术平方根。

标准差系数(变异系数):标准差除以平均数。

0f6bd462784445ad3e89bd89ecdaa9db.png

三 分布形态、相对位置度量以及异常值检测

1.分布形态的度量——偏度

偏度:若随机变量的三阶矩存在,则偏度定义如下:

af32ef1b37b0010a356e45751f54682b.png

当偏度大于0时,称为右偏,偏度小于零称为左偏。

273a51f1b887a72964af79ebfc174a0c.png

2.切比雪夫定理

切比雪夫定理:对于任意分布,与均值距离z个标准差的之内的数据所占的比例至少为1-1/z2,其中z>0。

切比雪夫定理来源于切比雪夫不等式:

8c97e65e230c03011c741990c66365eb.png

d0967d918acd2efc9beff13b4d240a5a.png

针对连续变量的切比雪夫不等式证明:

要证

8ddcbd393079a8326e80ea4faf78b257.png

只需

aaa16819eacf119aecd7d86410a472ba.png

dc99337f460e70a3ef8a7460576e6c25.png

由于

3f21ae15e7051a7fd833f9f7c8ab48ce.png

336586efcb97bf12450a625e52825b36.png

故原命题得证。

3.异常值检测

异常值检测有两种简单的方法:

1.z-score法

26e31c50ee27ef18c931ab0a64cd03e1.png

由于日常数据大多近似服从正态分布,由标准正态分布表可知,数据位于z=±3之内的的概率为99.87%,因此,对于z位于该区间之外的数据认为是异常值。

2.四分位数间距法

38ae970c9e8e0299066252ba8d6e0859.png

五数概括法和箱线图置的度量

1.五数概括法

用最大值最小值中位数以及上下四分位数五个数字对数据进行概括的方法。

2.箱线图

b341a632d20b82ccca6f8580d9c0c5a8.png

以上数据为某城市100家餐厅的代表餐品价格以及餐厅的质量评级,下面使用箱线图描述不同等级的餐厅价格分布。其中:

  • 箱内线:中位数
  • 箱子上边界:第三四分位数Q3
  • 箱子下边界:第一四分位数Q1
  • 上边界线:min{max(X),Q3+1.5IQR}
  • 下边界线:max{min(X),Q1-1.5IQR}
  • 上下边界外的点:异常值

ab0df90322e4f107fa99d8a076cd0377.png

两变量之间关系的度量

1.协方差

协方差是两随机变量线性相关性的度量,协方差绝对值越大,两随机变量相关性越强,协方差为正数表明两随机变量正相关,协方差为负表明两随机变量负相关。对于一组容量为N的数据,其观测值为(X1Y1),(X2Y2)...(XNYN),其协方差定义如下:

总体协方差:

49cd9bc0ec9ad59793e0db51e9ac01b8.png

类似的,样本协方差为:

7d4ba7f8ec468bb3193344f503b81b5b.png

样本协方差为总体协方差的无偏估计量,其证明如下:

ea1827d584ea7a03e6197ef0dfb68aac.png

2.相关系数

协方差的问题在于受数据大小影响,例如,将所有数据扩大5倍,则线性相关性不变但是协方差绝对值增大,为避免这种现象,我们采用相关系数描述相关性。

总体相关系数:

eb62534e8c55d49d70fb941012569096.png

样本相关系数:

8a7194bf9e798f8aabdd0e4c5d4c44ba.png
  • 样本相关系数不是总体相关系数的无偏估计。
  • 相关系数取值范围为[-1,1],其绝对值越接近1线性相关性越强。

相关系数取值范围的证明:

由柯西-施瓦茨不等式

1b377d22e45a540c6dd17cdf0787c0ea.png

易证明相关系数取值范围为[-1,1]

柯西-施瓦茨不等式简单证明:

构造一个恒不为负的二次函数

4bb6aa77d9531efa8de3dccf84186b36.png

由于其恒为非负,故有判别式小于等于0,即:

a0af569905bb60ee2568a40964bf1c74.png

原命题得证。

End.
作者:心里有点小空白
来源:segmentfault
本文为转载分享,如转载请联系作者
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值