机器学习第三天-概率论

1.随机变量

随机变量用于表示表示随机试验的结果。

其中对于随机为取值无法事先预知。

随机变量有离散型随机变量与连续性随机变量:

Ⅰ.离散型随机变量:

①.离散型随即变量的典型例子就是投掷骰子,可能的结果取值为1,2,3,4,5,6.

Ⅱ.连续型随机变量:

连续型随机变量的典型例子为成年人的身高与体重:

①.成年人的身高与体重是一个取值范围,身高的可能取值为[140,220]厘米之间,体重的可能取值为[90,270]斤之间。

Ⅲ.随机变量在机器学习中的例子:

设某一支股票每股的价格为x,x的值可能在[0,1000]之间变化

预测这支股票每股价格的未来走势,可以通过预测x在[0,10000]之间的概率分布来实现

Ⅳ.离散型随机变量的概率分布

1.以掷骰子为例:

骰子点数123456
对应的概率1/61/61/61/61/61/6

特点:

  • P(x)>=0
  • ∑P(xi)=1

2.二项分布(重复n次独立的伯努利试验)

如何要进行N次不同的实验,每次实验完全相同并且只有两种可能的结果,这样的实验结果分布情况就是二项分布。最简单的比如投掷一枚硬币N次,实验结果为x次正面朝上,n-x次反面朝上,这就是一个简单的二项分布。

  • 二项概率分布:

                         

                                     k=0,1,2,…,n,

                                          

公式可以用以下方法理解:我们希望有k次成功(p)和n−k次失败(1 −p)。并且,k次成功可以在n次试验的任何地方出现,而把k次成功分布在n次试验中共有个不同的方法。

3.几何分布

几何分布是离散型概率分布,其定义为:在N次伯努利实验中,试验K次才得到第一次成功的几率。即:前K-1次皆失败,直到第K次才成功的概率。

概率分布函数:

                        

性质:

                                    

4.0-1分布

0-1分布 是单个二值型离散随机变量的分布

  • 概率分布函数为:

                P(X=1)=p   

                P(X=0)=1-p

5.泊松分布

泊松分布就是描述某段时间内,时间具体发生的概率

在实际事例中,当一个随机事件,例如某电话交换台收到的呼叫、来到某公共汽车站的乘客、某放射性物质发射出的粒子、显微镜下某区域中的白血球等等,以固定的平均瞬时速率λ(或称密度)随机且独立地出现时,那么这个事件在单位时间(面积或体积)内出现的次数或个数就近似地服从泊松分布P(λ)。

概率函数:

                                       

泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数。 泊松分布适合于描述单位时间内随机事件发生的次数。

泊松分布的期望方差均为λ

特征函数为

(1)泊松分布是一种描述和分析稀有事件的概率分布。要观察到这类事件,样本含量必须很大 。

(2)λ是泊松分布所依赖的唯一参数。λ值愈小,分布愈偏倚,随着λ增大,分布趋于对称。

(3)当 λ=20时分布泊松分布接近于正态分布;当λ=50时,可以认为泊松分布呈正态分布。 在实际工作中,当λ=20时就可以用正态分布来近似地处理泊松分布的问题。

Ⅴ.连续型随机变量的概率分布

1.均匀分布


概率论和统计学中,均匀分布也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。 均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值,通常缩写为U(a,b)。

  • 概率密度函数

                                      

2.正态分布

若随机变量X服从一个位置参数为μ、尺度参数为σ的正态分布,记为:

X~N(μ,σ的平方)

  • 概率密度函数

                              

正态分布有两个参数,即期望(均数)μ和标准差σ,σ2为方差。

正态分布具有两个参数μ和σ^2的连续型随机变量的分布,第一参数μ是服从正态分布的随机变量的均值,第二个参数σ^2是此随机变量的方差,所以正态分布记作N(μ,σ2)。

μ是正态分布的位置参数,描述正态分布的集中趋势位置。概率规律为取与μ邻近的值的概率大,而取离μ越远的值的概率越小。正态分布以X=μ为对称轴,左右完全对称。正态分布的期望、均数中位数、众数相同,均等于μ。

σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。

 

  • 标准偏差

深蓝色区域是距平均值小于一个标准差之内的数值范围。在正态分布中,此范围所占比率为全部数值之68%,根据正态分布,两个标准差之内的比率合起来为95%;三个标准差之内的比率合起来为99%。

在实际应用上,常考虑一组数据具有近似于正态分布的概率分布。若其假设正确,则约68.3%数值分布在距离平均值有1个标准差之内的范围,约95.4%数值分布在距离平均值有2个标准差之内的范围,以及约99.7%数值分布在距离平均值有3个标准差之内的范围。称为“68-95-99.7法则”或“经验法则”

 3.指数分布

在概率理论和统计学中,负指数分布(也称为指数分布)是描述泊松过程中的事件之间的时间的概率分布,即事件以恒定平均速率连续且独立地发生的过程。 这是伽马分布的一个特殊情况。 它是几何分布的连续模拟,它具有无记忆的关键性质。 除了用于分析泊松过程外,还可以在其他各种环境中找到。

指数分布用来表示独立随机事件发生的时间间隔。

指数分布的盖度密度函数:

                                     

其中λ > 0是分布的一个参数,常被称为率参数(rate parameter)。即每单位时间发生该事件的次数。指数分布的区间是[0,∞)。 如果一个随机变量X呈指数分布,则可以写作:X~ Exponential(λ)。

累积分布函数:
                                       

 

2.条件概率、联合概率、贝叶斯公式

Ⅰ.条件概率

  • 条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为:P(A|B),读作“在B的条件下A的概率”
  • 条件概率举例:
    • 概率:中国人的体重(随机变量)X=130斤的概率
    • 条件概率:身高为172厘米(条件),体重X=130斤的概率
  • 机器学习中的例子:
    • 概率:任意一封邮件为垃圾邮件的概率,其值可能非常低,小于5%
    • 条件概率:一封邮件,发件人电邮不是你的正常联系人,并且包括如下句子:北京25岁女孩开豪车,揭秘原来是炒股暴发户,之前一直炒股好多产品都赚不到钱,很烦恼,加老师微信才给了一条明路,其为垃圾邮件的概率
  • 条件概率公式:

Ⅱ.联合概率

  • 联合概率指的是包含多个条件且所有条件同时成立的概率,记作P(X=A,Y=B)或P(A,B)
  • 随机变量的联合概率的例子:
    • 中国人中身高(随机变量X)低于172厘米,并且体重(随机变量Y)高于130斤的概率
    • 可以记为P(X<=172,Y>=130)

Ⅲ.贝叶斯定理

  • 贝叶斯定理描述在已知一些条件下,某件事情的发生概率。比如,如果已知癌症与年龄有关,使用贝叶斯定理可以通过某人年龄计算出他患癌症的概率。
  • 通常,事件A在事件B的条件下发生的概率P(A|B),与事件B在事件A条件下发生的概率P(B|A)是不一样的。然而,这两者是有确定的关系的,贝叶斯定理就是这种关系的陈述。贝叶斯公式的一个用途,即通过已知的三个概率而推出第四个概率。
  • 在更一般化的情况,假设{Ai}是事件集合里的部分集合,对于任意的Ai,贝叶斯定理可用下式表示

贝叶斯定理根据检测结果预测一个人是否吸毒 

  • 假设现存技术不是完美的,真正吸毒者被检出阳性(吸毒)的概率为99%,不吸毒的人被检出是阳性的概率为1%
  • 假设一个小区有0.5的真正吸毒者,如果警察对小区所有人做排查,查出一个人检测结果是阳性,那么这个人是真是吸毒的可能性有多高?

 

  • 25
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值