统计学基础笔记

一、相关概念

随机事件:在一个随机事件中,我们知道可能的结果是什么,但不知道哪一个特定的结果会发生。

概率:是0 --- 1 之间的数字,是对随机事件发生可能性的测量。 P(A) = 事件A 发生的概率

大数定律:在随机事件大量重复出现中,往往呈现几乎必然规律,这个规律就是大数定律。即实验条件不变的条件下,重复实验多次,随机事件某一结果发生的频率近似于它概率

条件概率:是指事件A 在另一个事件B发生的情况下,事件A 发生的概率。 P(A | B)= P(AB)|P(B)

独立事件:事件B 发生或不发生对事件A 发生不产生影响 ,反之亦然,我们就说两个事件A 和 B 互为独立事件。  P(A | B)= P(AB)|P(B)=P(A) ,P(A B) =P(A) X P(B)

二、概率分布

样本空间:一次随机试验中可能出现的所有结果集合

概率分布:一个“实验”的“概率分布”,列出样本空间里所有可能结果和其发生的概率

随机变量结果为 连续值: 正态分布 ----- 呈钟型,两头低,中间高,左右对称。根据中心极限定理,多个样本测量的平均值服从正态分布。(如身高、成绩、年龄等)

                                          均匀分布 ----- 一定区间上取值的概率

随机变量结果为 离散值: 二项式分布 ------ 在N 个独立的成功/失败试验中,成功次数的离散概率分布,其中每次试验成功的概率为P。(如 网站按钮点击率)

                                         泊松分布 ------- 描述单位时间内随机事件发生的次数。(如一定时间内保险公司汽车索赔次数,产品售后次数)

三、基本统计量

数据集中趋势: 平均数、中位数、众数

数据离散程度:方差、标准方差 (样本方差的分母由 N 变成N-1 ,是因为多次观测样本方差的平均值会略小于总体方差,通过将方差公式分母N 变成 N-1

                              提高方差值,使样本方差趋近于整体方差,无偏估计)

数据分布特征: 四分位数、百分位数

特定子集数与所有数据的区别: 提升度、杠杆量 ----- 两个值越大,表示事件相关性越大

                                                            (实际情况下A和B同时发生概率 P(AB) 和假设两个事件完全无关联,

                                                               A和B同时发生概率 P(A) x P(B))  提升度----- P(AB) ;P(A)X P(B)  ;杠杆量---- P(AB)-P(A)x P(B)           

四、中心极限定理

定义:给定一个任意分布的总体,每次从这些总体中随机抽取N个样品,一共进行M次这样的抽样。然后把这M组样品求平均值。

              这些平均值的分布接近正态分布(N > 30)

定理:1、样本的平均值,约等于其所在总体的平均值;

             2、不管总体是什么分布,多次抽样的样本平均值会围绕在总体平均值周围,并呈现正态分布。

五、抽样方法

抽样定义;从研究总体中抽取一部分代表性样本的方法

抽样方法:1、简单随机抽样;按照随机原则从总体单位中直接抽取若干单位组成样本。(最基本的抽样方法)

                      2、等距随机抽样;按照一定的间隔,从根据一定的顺序排列起来的总体单位中抽取样本。(如进行标号,按顺序排序后,按一定间隔抽样)

                      3、分层随机抽样;将研究总体按一定标准分层各种不同的类别,然后根据类别数与总体数的比例确定从各类别中抽取样本的数量,

                              最后按随机原      则从各类中抽取样本。

六、假设检验

 场景;抽样调查的结果是否代表总体情况

假设检验步骤;1、选择原假设H0 和备择假设H1 (H0是包含“=”,H1有3种,“< > ≠”)

                         2、计算Z 值 (近似等于样本方差除以样本数量),基于正态分布,单样品Z检验

                         3、计算P值(P值为假设原假设成立时所得到的样本观察结果或更极端结果出现的概率)

                                        P值越小,对原假设的质疑越大,反之(样品分数平均值增大、离散程度变小、样品数量增加都会导致P值减小)

                          4、比较P值和显著性水平α,下结论(P值<显著性水平,则拒绝原假设)

                                         进行假设检验前,先确定显著性水平,一般为5 %,更严格为1 %

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

你今天更博学了吗

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值