机器学习第三天-概率论

Gravles

已于 2024-07-10 18:31:19 修改

阅读量810

点赞数 25

分类专栏：从0开始学习机器学习文章标签：机器学习人工智能

于 2024-07-08 18:10:10 首次发布

本文链接：https://blog.csdn.net/Gravles/article/details/140269749

版权

从0开始学习机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

1.随机变量

随机变量用于表示表示随机试验的结果。

其中对于随机为取值无法事先预知。

随机变量有离散型随机变量与连续性随机变量：

Ⅰ.离散型随机变量：

①.离散型随即变量的典型例子就是投掷骰子，可能的结果取值为1，2，3，4，5，6.

Ⅱ.连续型随机变量:

连续型随机变量的典型例子为成年人的身高与体重：

①.成年人的身高与体重是一个取值范围，身高的可能取值为[140，220]厘米之间，体重的可能取值为[90，270]斤之间。

Ⅲ.随机变量在机器学习中的例子：

设某一支股票每股的价格为x，x的值可能在[0，1000]之间变化

预测这支股票每股价格的未来走势，可以通过预测x在[0,10000]之间的概率分布来实现

Ⅳ.离散型随机变量的概率分布

1.以掷骰子为例：

骰子点数	1	2	3	4	5	6
对应的概率	1/6	1/6	1/6	1/6	1/6	1/6

特点：

P(x)>=0
∑P(xi)=1

2.二项分布（重复n次独立的伯努利试验）

如何要进行N次不同的实验，每次实验完全相同并且只有两种可能的结果，这样的实验结果分布情况就是二项分布。最简单的比如投掷一枚硬币N次，实验结果为x次正面朝上，n-x次反面朝上，这就是一个简单的二项分布。

二项概率分布：

k=0，1，2，…，n,

公式可以用以下方法理解：我们希望有k次成功(p)和n−k次失败(1 −p)。并且，k次成功可以在n次试验的任何地方出现，而把k次成功分布在n次试验中共有个不同的方法。

3.几何分布

几何分布是离散型概率分布，其定义为：在N次伯努利实验中，试验K次才得到第一次成功的几率。即：前K-1次皆失败，直到第K次才成功的概率。

概率分布函数:

性质：

4.0-1分布

0-1分布是单个二值型离散随机变量的分布

概率分布函数为：

P(X=1)=p

P(X=0)=1-p

5.泊松分布

泊松分布就是描述某段时间内，时间具体发生的概率。

在实际事例中，当一个随机事件，例如某电话交换台收到的呼叫、来到某公共汽车站的乘客、某放射性物质发射出的粒子、显微镜下某区域中的白血球等等，以固定的平均瞬时速率λ（或称密度）随机且独立地出现时，那么这个事件在单位时间（面积或体积）内出现的次数或个数就近似地服从泊松分布P(λ)。

概率函数：

泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数。泊松分布适合于描述单位时间内随机事件发生的次数。

泊松分布的期望和方差均为λ

特征函数为

(1)泊松分布是一种描述和分析稀有事件的概率分布。要观察到这类事件，样本含量必须很大。

(2)λ是泊松分布所依赖的唯一参数。λ值愈小，分布愈偏倚，随着λ增大，分布趋于对称。

(3)当 λ=20时分布泊松分布接近于正态分布；当λ=50时，可以认为泊松分布呈正态分布。在实际工作中，当λ=20时就可以用正态分布来近似地处理泊松分布的问题。

Ⅴ.连续型随机变量的概率分布

1.均匀分布

在
概率论和统计学中，均匀分布也叫矩形分布，它是对称概率分布，在相同长度间隔的分布概率是等可能的。均匀分布由两个参数a和b定义，它们是数轴上的最小值和最大值，通常缩写为U（a，b）。

概率密度函数

2.正态分布

若随机变量X服从一个位置参数为μ、尺度参数为σ的正态分布，记为：

X~N(μ，σ的平方)

概率密度函数

正态分布有两个参数，即期望（均数）μ和标准差σ，σ2为方差。

正态分布具有两个参数μ和σ^2的连续型随机变量的分布，第一参数μ是服从正态分布的随机变量的均值，第二个参数σ^2是此随机变量的方差，所以正态分布记作N（μ,σ2）。

μ是正态分布的位置参数，描述正态分布的集中趋势位置。概率规律为取与μ邻近的值的概率大，而取离μ越远的值的概率越小。正态分布以X=μ为对称轴，左右完全对称。正态分布的期望、均数、中位数、众数相同，均等于μ。

σ描述正态分布资料数据分布的离散程度，σ越大，数据分布越分散，σ越小，数据分布越集中。也称为是正态分布的形状参数，σ越大，曲线越扁平，反之，σ越小，曲线越瘦高。

标准偏差

深蓝色区域是距平均值小于一个标准差之内的数值范围。在正态分布中，此范围所占比率为全部数值之68%，根据正态分布，两个标准差之内的比率合起来为95%；三个标准差之内的比率合起来为99%。

在实际应用上，常考虑一组数据具有近似于正态分布的概率分布。若其假设正确，则约68.3%数值分布在距离平均值有1个标准差之内的范围，约95.4%数值分布在距离平均值有2个标准差之内的范围，以及约99.7%数值分布在距离平均值有3个标准差之内的范围。称为“68-95-99.7法则”或“经验法则”

3.指数分布

在概率理论和统计学中，负指数分布（也称为指数分布）是描述泊松过程中的事件之间的时间的概率分布，即事件以恒定平均速率连续且独立地发生的过程。这是伽马分布的一个特殊情况。它是几何分布的连续模拟，它具有无记忆的关键性质。除了用于分析泊松过程外，还可以在其他各种环境中找到。

指数分布用来表示独立随机事件发生的时间间隔。

指数分布的盖度密度函数:

其中λ > 0是分布的一个参数，常被称为率参数（rate parameter）。即每单位时间发生该事件的次数。指数分布的区间是[0,∞)。如果一个随机变量X呈指数分布，则可以写作：X~ Exponential（λ）。

累积分布函数:

2.条件概率、联合概率、贝叶斯公式

Ⅰ.条件概率

条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为：P(A|B),读作“在B的条件下A的概率”
条件概率举例：
- 概率：中国人的体重（随机变量）X=130斤的概率
- 条件概率：身高为172厘米（条件），体重X=130斤的概率
机器学习中的例子：
- 概率：任意一封邮件为垃圾邮件的概率，其值可能非常低，小于5%
- 条件概率：一封邮件，发件人电邮不是你的正常联系人，并且包括如下句子：北京25岁女孩开豪车，揭秘原来是炒股暴发户，之前一直炒股好多产品都赚不到钱，很烦恼，加老师微信才给了一条明路，其为垃圾邮件的概率
条件概率公式：

Ⅱ.联合概率

联合概率指的是包含多个条件且所有条件同时成立的概率，记作P(X=A,Y=B)或P(A,B)
随机变量的联合概率的例子：
- 中国人中身高（随机变量X）低于172厘米，并且体重（随机变量Y）高于130斤的概率
- 可以记为P(X<=172,Y>=130)

Ⅲ.贝叶斯定理

贝叶斯定理描述在已知一些条件下，某件事情的发生概率。比如，如果已知癌症与年龄有关，使用贝叶斯定理可以通过某人年龄计算出他患癌症的概率。
通常，事件A在事件B的条件下发生的概率P(A|B)，与事件B在事件A条件下发生的概率P(B|A)是不一样的。然而，这两者是有确定的关系的，贝叶斯定理就是这种关系的陈述。贝叶斯公式的一个用途，即通过已知的三个概率而推出第四个概率。
在更一般化的情况，假设{Ai}是事件集合里的部分集合，对于任意的Ai,贝叶斯定理可用下式表示