12月4日,本学期第三次“清新书院·数理统计学习小组”在清华大学新闻与传播学院(宏盟楼)环球资源厅顺利举行。新闻与传播学院2020级博士生王怡欢作为领学人,为在场的同学们介绍了大数定律、中心极限定理、排列组合、线性回归等知识,帮助同学们进一步了解多维随机变量及其数字特征。
NO.1
内容回顾
课堂开始,王怡欢带领大家回顾了上节课学习的概率与频率、随机试验、事件独立性、随机变量、正态分布等重点概念。在对单维随机变量复习的基础上,引入本节课的重点——多维随机变量。
NO.2
两大定律
两大定律包括大数定律和中心极限定律。
大数定律主要用于估计概率值,即在大量重复实验的过程中,用事件发生的频率去近似估计它的概率。包括伯努利大数定律和切比雪夫大数定律。
中心极限定理是指,如果样本量足够大,则变量均值的采样分布将近似于正态分布,而与该变量在总体中的分布无关。中心极限定理意味着即使数据分布不是正态的,从中抽取的样本均值的分布也是正态的。
王怡欢总结道,大数定律从“质”的方面描述随机现象,中心极限定理进一步从“量”的方面描述随机现象。大数定律告诉我们可以用观测数的算数平均值来估算分布的数学期望。中心极限定理指的是给定一个任意分布的总体。每次从这些总体中随机抽取n个抽样,一共抽 m 次。然后把这 m 组抽样分别求出平均值。这些平均值的分布接近正态分布。
两大定律思维导图
NO.3
二维随机变量
设随机试验E的样本空间S,对于每一个样本点?∈?,两个实数?(?)和Y(?) 与之对应,则它们构成的有序数组(X,Y)为二维随机变量。其中:X,Y均为定义在S上的随机变量。
二维随机变量的分布律
联合分布律、边际分布律和条件概率分布。
分布律间的推导关系
变量标准化
在数理统计中,常常涉及到不同变量之间的比较,此时需要对变量进行标准化处理。Z-Score标准化方法通过标准化变量将两组或多组数据转化为无单位的Z-Score分值,使得数据标准统一化,提高了数据可比性,削弱了数据解释性。
协方差本差
除了比较变量大小之外,分析变量之间的相互关系也是数理统计分析的重要内容,协方差本差是用于描述X和Y之间相互关系的数字特征。
协方差的计算公式
如果X与Y相互独立,则协方差为0。
二维随机变量思维导图
NO.4
排列与组合
排列的英文是 Permutation 或者 Arrangement,因此在数学符号中,用 P 或者 A 表示都可以。
P 右边会跟两个数字(或字母),右下角的数字 n 表示总数,右上角的数字 m 表示抽出的个数。整个符号的意思是“从 n 个人中,有顺序地抽出 m 个人的抽法数”
组合比排列更常用,组合的英文是 Combination,因此在数学符号中用 C 表示。
C 右边会跟两个数字(或字母),右下角的数字 n 表示总数,右上角的数字 m 表示抽出的个数。整个符号的意思是“从 n 个人中,不计顺序地抽出 m 个人的抽法数”。
排列组合思维导图
NO.5
线性回归
在课堂的最后,王怡欢重点介绍了回归分析的相关知识,加深了同学们对于统计回归、线性回归等概念的理解。
统计回归分析的任务,就在于根据 x1,x2,...,xp 线性回归和Y的观察值,去估计函数f,寻求变量之间近似的函数关系。
一元线性回归模型:假设Y服从正态分布,构建回归模型预测X与Y的关系。
一元线性回归模型
线性回归思维导图
在课程的最后,王怡欢总结了本次课程学习中有关数理统计的几项基本概念,并详细解答了同学们提出的问题。