常用的统计学原理及案例

本文介绍了统计学的基础概念,包括总体、样本和抽样的定义及性质。总体是研究对象的全体,样本是从总体中抽取的一部分,而抽样要求简单随机且每个样本被抽中的概率相等。统计量是不含未知参数的样本函数,常见的有样本均值、方差等。样本均值的期望等于总体均值,方差则是总体方差的n分之一。文章还提及了样本方差的修正及其期望等于总体方差。
摘要由CSDN通过智能技术生成
 
 

ae8df1739761e5a8dbe6bb3b508f76a6.gif

 
 
公众号后台回复“图书“,了解更多号主新书内容

     作者:冬至

     来源:首席数据科学家

 统计学相关的知识,是数据科学的重要基础之一。

之前咱们分享过很多数据应用相关的内容,从《用户画像》《数据采集》《BI系统》等等。今天开始系统分享一些和基础理论相关的内容,包括统计学、概率论等学科。

01

总体、样本与抽样

统计学,其实本质就是研究样本与总体的学科。

(1)关于总体

首先,什么是总体呢?

总体,就是我们想研究的对象的全体。比如,我们要研究淘宝的所有用户,那淘宝的所有7亿用户就是总体。总体用户中的每一个人,就是一个个体

如果总体是有限个,就是有限总体,无限个就是无限总体

对于总体,我们给出一个随机变量X,随机变量的分布就是总体分布

(2)关于样本

研究总体的过程中,我们就发现一个问题,总体的数量往往过多。比如针对淘宝网所有用户,想研究所有用户的满意度,咋办?要一个一个人全部调查一遍嘛?显然不现实。这时就有了抽样以及样本的价值。

什么是抽样?

简单来说,抽样就是将总体中取一部分。比如全部淘宝用户抽1000人,这1000人就是样本,抽取的过程就是抽样。1000人就是样本大小,也叫样本容量

对于抽了n个样本X1,X2,……Xn,我们通常用以下表示样本变量

048aa24934a9efe2f838a9924b969f5d.png

如果发生了抽样,那每个样本都有一个具体的值,比如样本X1的取值是x1,那我们就把x1叫观测值,全部样本的观测值则用以下表示:

97afa6170178d8d6b4919e976c1f2b24.png

总结而言,大写表示的是变量,小写表示的是确定的数值(因为已经抽取出来并测量了)。

(3)关于抽样

关于抽样,我们要求的是简单随机抽样。有以下几个要求:

  • 同分布。要求每个样本被抽到的机会都是均等的

  • 相互独立。抽到某个个体对其他个体被抽到是没有影响的。

当然了,简单随机抽样是比较理想的情况,实际操作中比较困难。

(4)样本的分布

由于样本的抽取是独立的,所以样本的概率函数就等于每个样本的联合概率分布。

02


统计量

了解了总体和样本,我们再看看看统计量。

(1)统计量的定义

首先看一下定义:不含任何未知参数的样本的函数,就叫统计量

说白了,统计量就是由我们取的样本、构造的一个不含未知参数的函数。函数可以是任意的,随意构造,只要保证不含未知参数即可(可以含已知参数)。

比如,我们求样本的和,求样本平方之后的和,这些都是统计量。

(2)常见统计量

这里介绍一下常见的统计量。

样本均值:

outside_default.png

样本方差(修正过的):

outside_default.png

注意,这里的样本方差是修正过的。细心的朋友应该也已经发现了,这里的系数分母是n-1(未修正的样本方差的分母是n,也是我们初中高中一直用的方差的定义)。修正的主要目的是为了使得样本方差是总体方差的无偏估计。关于无偏估计,后续再阐述。

样本标准差:

outside_default.png

样本K阶原点矩:

outside_default.png

当这里的k=1的时候,一阶原点矩就是均值。

样本K阶中心矩:


outside_default.png

当这里的k=2的时候,就是未修正的样本方差。

03


样本均值和方差的性质

上面讲到了很多统计量,用的比较多的,其实依旧是样本均值和方差。因此,针对样本均值和方差的一些性质,进行详细阐述。

912d1af2c47c8eae977aac8515464b7c.png

(1)样本均值的期望是总体均值

啥意思呢,举例说明。

假设全体7亿淘宝用户对网站的平均满意度是80分(这个是未知的),抽样了1000个淘宝用户,统计了这1000个用户每个人的满意度,并求均值。那这个样本均值的期望就应该等于80分。

(2)样本均值的方差是总体方差的n分之一

从这里,我们可以看出来。样本均值的方差比总体方差变小了。而且样本数量越大,均值的方差越小。为啥呢?

其实是这样。方差反映的是数据的波动程度。当我们选样本的数量越多的时候,那么越接近总体的数量,人数越多数据的波动性越小。这个道理也是比较容易理解的。

(3)样本方差的期望等于总体方差

这里具体证明过程就不展开了。

关于总体、样本、统计量相关的内容,就先介绍到这。下回继续分享抽样分布相关的内容,欢迎继续关注。

◆ ◆ ◆  ◆ ◆
麟哥新书已经在当当上架了,我写了本书:《拿下Offer-数据分析师求职面试指南》,目前当当正在举行活动,大家可以用相当于原价5折的预购价格购买,还是非常划算的:
 
 
数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以扫描下方管理员二维码,进群前一定要关注公众号奥,关注后让管理员帮忙拉进群,期待大家的加入。

管理员二维码:


猜你喜欢

● 卧槽!原来爬取B站弹幕这么简单
● 厉害了!麟哥新书登顶京东销量排行榜!
● 笑死人不偿命的知乎沙雕问题排行榜

● 用Python扒出B站那些“惊为天人”的阿婆主!
● 你相信逛B站也能学编程
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值