概率论

最新推荐文章于 2024-07-23 22:26:59 发布

天空中的一缕微风

最新推荐文章于 2024-07-23 22:26:59 发布

阅读量1.7k

点赞数

分类专栏：数据分析文章标签：数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zlbflying/article/details/48491205

版权

数据分析专栏收录该内容

4 篇文章 0 订阅

订阅专栏

概率论基础回顾

概率的认识

存在随机变量 $X$ ，假设 $X$ 是离散的， $p(X=x_0)$ 代表事件 $x_0$ 发生的概率。
问题来了，假设 $X$ 是连续型随机变量，这里概率怎么来理解？

累计分布函数

ϕ (x) = P (x \leq x 0)

$\phi(x)=P(x \le x_0)$

$\phi(x)$ 一定是单增函数
$min(\phi(x))=0，max(\phi(x))=1$
将值域为 $[0,1]$ 的某函数 $y=f(x)$ 看成 $y$ 事件的累积概率
若 $y=f(x)$ 可导，则 $p(x)$ 为某概率密度函数

思考一下，累积分布函数有啥用？

古典概率

古典概率通常又叫事前概率，是指当随机事件中各种可能发生的结果及其出现的次数都可以由演绎或外推法得知，而无需经过任何统计试验即可计算各种可能发生结果的概率。

实际问题:

某班上有50位同学，至少有2人生日相同的概率是多少？

条件概率

p (A | B) = p ( A B ) p ( B )

$p(A|B) = {p(AB) \over p(B)}$

全概率公式

p (A) = \sum i p (A | B) p (B)

$p(A)=\sum_i p(A|B)p(B)$

贝叶斯公式

p (B i | A) = p ( A | B i ) p ( B i ) \sum j p ( A | B j ) p ( B j )

$p(B_i|A) = {{p(A|B_i)p(B_i)} \over {\sum_j p(A|B_j)p(B_j)}}$

实际问题:

8支步枪中有5支已校准过，3支未校准。一名射手用校准过的枪射击，中靶概率为0.8；用未校准的枪射击，中靶概率为0.3；现从8支枪中随机取一支射击，结果中靶。求该枪是已校准过的概率。

分布

离散型分布

伯努利分布、二项分布、几何分布和负二项分布、泊松分布
http://blog.csdn.net/zlbflying/article/details/47777943

连续型分布

均匀分布、指数分布、正态分布、 $Beta$ 分布
这里写图片描述

思考:

二项分布->泊松分布？

n很大，p很小的二项分布，可近似为泊松分布

泊松分布与指数分布的联系？

泊松分布是单位时间内独立事件发生次数的概率分布，指数分布是独立事件的时间间隔的概率分布。

这么多分布，意义在哪？

极限定理

切比雪夫不等式

设随机变量X的期望为 $\mu$ ，方差为 $\sigma^2$ ，对于任意正数 $\epsilon$ ，有：

P {| X n - μ | \geq ϵ} \leq σ 2 ϵ

$P\{|X_n-\mu| \ge \epsilon\} \le {\sigma^2 \over \epsilon }$
切比雪夫不等式说明，

X $X$ 的方差越小，事件

{|Xn−μ|≥ϵ} $\{|X_n-\mu| \ge \epsilon\}$ 发生的概率越大。即：

X $X$ 取的值基本上集中在期望

μ $\mu$ 附近。

大数定理

令 $X_1$ , $X_2$ , $X_3$ ,……, $X_i$ ……是独立随机变量序列， $E(X_i)$ = $\mu$ , $Var(X_i)=\sigma^2$ ，令 $\overline X_n = n^{-1}\sum_{i=1}^n X_i$ ，那么对任意的 $\epsilon$ >0，当n-> $\infty$ 时，

P (| X ¯ ¯ ¯ n - μ | > ϵ) - > 0

$P(|\overline X_n-\mu| > \epsilon)->0$

证明过程可参考切比雪夫不等式

思考：
大数定理有啥用？
Eg：计算积分 $I(f) = \int_0^1f(x)dx$ ，假设 $f(x)$ 异常复杂，怎么计算呢？
采用蒙特卡洛方法进行近似计算，生成[0,1]上独立的均匀随机变量，即 $X_1,X_2,…，X_n$ ，然后计算

I^(f) = 1 n \sum i = 1 n f (X i)

$\hat I(f) = {1 \over n}\sum_{i=1}^n f(X_i)$
根据大数定理，上述结果接近于

E[f(x)] $E[f(x)]$

中心极限定理

设随机变量 $X_1$ , $X_2$ , $X_3$ ……互相独立，服从同一分布，并且具有相同的期望 $\mu$ 和方差 $\sigma^2$ ，则随机变量

Y n = \sum n i = 1 X i - n μ n - - \sqrt σ

$Y_n={{\sum_{i=1}^n X_i - n\mu} \over {\sqrt n \sigma}}$
的分布收敛到标准正态分布。

中心极限定理的表述有很多种，这种我认为是比较好理解的，在实际问题处理中，很多随机变量分布都被认为是服从正态分布的，比如说线性回归中误差的分布。

实例：
大量存在的两点分布Bi(1,p)，其中，Bi发生的概率为0.01，即p=0.01。取其中的n个，使得发生的个数除以总数的比例落在区间(0.0099,0.0101)，则n至少是多少？

关于估计

样本的矩

$k$ 阶原点矩：

A k = 1 n \sum i = 1 n X k i

$A_k={1 \over n} \sum_{i=1}^n X_i^k$

k $k$ 阶中心距

M k = 1 n \sum i = 1 n (X i - X ¯ ¯ ¯) k

$M_k={1 \over n} \sum_{i=1}^n{(X_i-\overline X)}^k$

矩估计的原理

样本的 $k$ 阶矩等于总体的 $k$ 阶矩，注意这里的样本矩并没有除以 $n-1$

实例:

在正态分布的总体中采样得到 $n$ 个样本： $X_1,X_2,X_3$ ……，估计该总体的均值和方差。

极大似然估计

http://blog.csdn.net/zlbflying/article/details/48474837

实例：

若给定一组样本 $X_1,X_2,X_3$ …… $X_n$ ，已知它们来自于高斯分布 $N(\mu,\sigma)$ ，试估计参数 $\mu$ , $\sigma$ 。

假设检验

假设检验不再分享，原因在于在论文中使用到的概率较小，且假设检验主要用在对总体估计结果是否可信的判断上，大家参考概率论书籍即可。

卡方检验

这里单拿出卡方检验，卡方检验是在试验中用途非常广泛的一种检验方法，主要是比较两个及两个以上样本率( 构成比）以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。

χ 2 = \sum ( 观 测 值 - 理 论 值 ) 2 理 论 值

$\chi^2=\sum {{(观测值-理论值)}^2 \over {理论值}}$

实例：

假设你是一家赌场的老板，你怀疑有个赌客对骰子做了手脚。你已经将赌客抓了起来并没收了骰子。现在你必须证明他的骰子是有问题的。然后你掷了60次，记录如下：
点数 1 2 3 4 5 6
频数 8 9 19 6 8 10
用上述结果计算一下卡方统计量的值等于多少？

天空中的一缕微风

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。