随机变量
随机变量不是一个确定的值,是一个变量,这个变量的可能取值是一个集合
并且,随机变量取这个集合中的每一个值都有其对应的概率
eg.
掷一个色子,结果可能为1,2,3,4,5,6
这个集合作为随机变量X的取值
于是我们有,掷到2的概率为1/6,即P(X=2)=1/6
只有随机变量才能说服从于某一分布,确定的值不会服从于某一分布
如果说某某服从某一分布,则是把某某当作了随机变量的意思
由于随机变量并不是一个具体的值,所以实际实验时的结果并不是随机变量,只能用多次实验的结果去近似成随机变量
随机变量服从正态分布的含义
即这个随机变量的所有可能取值的集合及其概率能画成一个正态分布的曲线
如上图所示,横轴为所有可能的取值,纵轴为每个取值的概率,x轴上方的面积=1,即概率和为1
概率,频率与频数
频率=频数/总数
举个例子,假设天气只有晴天跟雨天,两种天气的概率各为1/2,我们观测了10天的天气,有5天是晴天,这里晴天的频数为5,频率为1/2
即,频率是通过测量或实验得到的数据,概率是事物的固有属性
可以简单理解为,频率是随机采样多个样本计算出来的,概率是拿所有样本来计算的
中心极限定理
对于一个任意分布的总体N,多次从中随机抽样,每次抽样n个数,当n足够大时,每次抽样的样本的均值近似服从正态分布
用随机变量来说,随机抽样n次(每次抽1个数),即有n个随机变量Y1~Yn,他们的均值同样为随机变量,当n足够大时,均值 Y ˉ \bar{Y} Yˉ近似服从正态分布
根据上面的两种说法,我们可以总结,“有n个随机变量Y1~Yn”,相当于多次抽样,每次抽n个样本,用随机变量的说法可以省略“多次抽样大样本”
标准误差
在做均值估计时,反映估计量与实际量的差异的值
即,对于一个任意分布的总体N,随机抽样1次,这1次抽样了n个数(也等同于随机抽样n次,每次抽样1个数),用这n个数形成的大样本的均值去估计总体N的均值,偏差有多大?
答:标准误差
即
S
D
/
n
SD/\sqrt{n}
SD/n,SD为这个大样本的标准差,n为这个大样本的样本数量
为什么是这样?
(1)分子是n,n越大标准误差越小,即这次采样的样本越多,估计的就越准确
(2)分母是SD,SD越大标准误差越大,即这次采样的样本越离散,则误差越大
主要解释第二点,为什么这次采样的样本越离散(标准差越大),则误差越大?
标准差反映样本在均值附近的分布。已知样本均值作为随机变量是近似服从正态分布的,即多次采样大样本的样本均值是能画成正态分布曲线的。如果这次抽样的样本的标准差越大