大数据之统计学基础(二):随机变量及其概率分布

随机变量及其概率分布

随机变量(r.v)是研究随机试验中的一串事件:比如掷一颗骰子,用X表示骰子的点数,由于X的取值我们无法确定,所以称X是一个随机变量,随机变量的取值随机会而定。

1.随机变量的类型:
1.1离散型:
1.1.1 离散型r.v.X :离散型 r.v.X取有限或可数多个值:
  • 离散型随机变量的分布 (1)

P ( X = x k ) = P k    k = 1 , 2 , 3... n P(X=x_k) = P_k \ \ k=1,2,3...n P(X=xk)=Pk  k=1,2,3...n

  • 离散型随机变量的分布 (2)
Xx1x2xn
PP1p2pn
1.2 连续型

若 d f 满 足 如 下 条 件 : 存 在 非 负 函 数 f ( x ) , 且 ∫ f ( x ) d x = 1 , F ( x ) = ∫ − ∞ x f ( x ) d x 若df满足如下条件:存在非负函数f(x),且 \int f(x)dx =1 , F(x) =\int_{-\infty}^x f(x)dx dff(x),f(x)dx=1F(x)=xf(x)dx
则称F(x)为连续型df,对应的r.v X称为连续型随机变量。


2 随机变量的概括性度量:
2.1 期望值:描述随机变量水平的统计量
2.1.1 离散型随机变量的期望:

μ = E ( x ) = ∑ x i p i \mu = E(x) = \sum{x_ip_i} μ=E(x)=xipi

2.1.2 连续型随机变量的期望:

μ = E ( x ) = ∫ − ∞ ∞ x f ( x ) d x \mu = E(x) = \int_{-\infty}^{\infty}xf(x)dx μ=E(x)=xf(x)dx

2.2 方差: 描述随机变量离散程度的统计量
2.2.1 离散型随机变量的方差:

σ 2 = D ( x ) = ∑ ( x i − μ ) 2 p i \sigma^2 = D(x) = \sum{(x_i-\mu)^2p_i} σ2=D(x)=(xiμ)2pi

2.2.2 连续型随机变量的方差:

σ = D ( x ) = ∫ − ∞ ∞ ( x − u ) 2 f ( x ) d x \sigma = D(x) = \int_{-\infty}^{\infty}(x-u)^2f(x)dx σ=D(x)=(xu)2f(x)dx


3 几种常见的分布
3.1 常见的离散型分布:二项分布、泊松分布、超几何分布
3.2 常见的连续型分布:正态分布、均匀分布、指数分布
3.3 其他几个重要的分布卡方分布、t分布、F分布

关于以上分布的分布函数、概率密度函数、描述性统计量、函数图像等信息在任何一本统计学教材均可查看,本文就不再赘述。


4 样本统计量及其概率分布的相关概念

参数:对总体特征的某个度量,通常情况下总体参数的值是未知的,需要通过样本信息进行推断;

统计量:根据样本数据计算的用于推断总体的某些量,是对样本特征的某个概括性度量;样本统计量是一个随机变量。

统计量的概率分布:统计量是一个随机变量,它有一定的概率分布,样本统计量的概率分布也称为抽样分布,它是由样本统计量的所有可能取值形成的相对评率分布。统计量的概率分布实际上是一种理论分布。

比例:比例是指总体中具有某种属性的个体与全部个体之和的比值。

标准误:统计量的标准误是指统计量分布的标准差,也称为标准误差,标准误差用于衡量样本统计量的离散程度,在参数估计和假设检验中,它是用于衡量样本统计量与总体参数之间差距的一个重要尺度; 例如:对一个总体多次抽样,每次样本大小都为n,那么每个样本都有自己的平均值,这些平均值的标准差叫做标准误差。

标准误的计算公式如下
S E = σ x ˉ = σ / n SE =\sigma_{\bar{x}} = \sigma/\sqrt{n} SE=σxˉ=σ/n


参考资料:

贾俊平.《统计学-基于R》 第三版
茆诗松.《概率论与数理统计教程》 第二版

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值