一 随机变量与概率
随机变量:可以随机取不同值的变量(概念可扩展到 向量值随机变量)
随机变量分类:①离散随机变量(例如骰子的点数) ②连续随机变量(线段上的某一个点)
数学表达式:x 表示随机变量,表示随机变量的一个实例
概率分布:随机变量再每一个可能取到的状态的可能性大小
概率分布->独立性:A事件发生与B事件发生无关,则它们的概率分布可以用乘积表示
数学表达式
离散变量->概率分布:概率质量函数(probablity mass function,PMF)
概率质量函数将离散随机变量映射到随机变量取得该值的概率
数学表示:或者或者
- 概率质量函数必须满足三点条件:
- P的定义域必须可以取到x的所有可能值
-
, 概率值在[0, 1]
-
,概率和为1
离散变量->联合概率分布: joint probablity distribution
数学表示:或者
连续变量->概率分布:概率密度函数(probablity densityfunction,PDF)
- 概率密度函数必须满足三点条件:
- P的定义域必须可以取到x的所有可能值
-
-
某个瞬时的概率密度函数是可以大于1的,但是在定义域内的积分一定是等于1的
边缘概率:求“联合概率分布”中的一个子集的分布(全概率公式)
离散边缘概率分布:
连续边缘概率分布:
条件概率:A事件已经发生的条件下,B事件发生的概率
数学表达式:
条件概率只有当的时候才有意义,不可能发生的事件没有条件概率
条件概率->链式法则:
虽然这里没有做过多的介绍,但是十分重要!
置信区间and置信度:
什么是重点?这就是重点!!!
- 统计学的核心思想是用样本去估计总体:样本->总体
- 置信区间是一种区间估计(相对于“点估计”的概念)
- 95%的置信度:如果从总体中抽取100个不同样本,每个样本都用相同的统计量构造的置信区间(注意:由于样本不相同,这些置信区间的范围也不尽相同),那么有95个置信区间包含了总体参数的真值。这个区间叫做置信区间,95%叫做置信度,置信水平或者置信系数。
- 统计量是随机变量,而总体的参数是一个确定数值
错误理解:构造完置信区间以后,总体的指标有95%的概率落在这个区间内 正确理解:通过样本构造区间( 区间估计)对总体的参数( 它是确定不变的)进行估计;不同的样本计算出来的样本不同,所得到的区间也不同;进行多次实验,得到N个区间,其中有95%*N个区间包含总体的参数。
二 随机变量分布
- Gaussian Distribution(高斯分布)/normal Distribution(正态分布)
什么是重点?这就是重点!!!
数学表达式:公式描述:表示数据的均值,同时也是图像的峰值,是数据的方差图像描述:正态分布像一只倒扣的钟。两头低,中间高,左右对称。大部分数据集中在平均值,小部分在两端 理解:生活中大量的数据分布,都服从正态分布,大部分数据集中在均值附近 ,与均值相差大的数据出现的概率比较小 举例:某大学的男生身高分布 中心极限定理:给定一个 任意分布的总体。我每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值。 这些平均值的分布接近正态分布 标准正态分布表:要学会怎么看
为什么机器学习中很多假设,数据服从正态分布:
- 自然界最多的不是正态(高斯)分布,而是长尾(幂律等)分布。但是结合中心极限定理,可以将其他分布转换为正态分布;
- 确定均值和方差下,正态分布也就是熵最大,最混乱,最无序的分布;熵最大,可以平摊风险(同一个值会有两个点可以取到, 不确定性很大);对先验知识的要求最少
- Uniform distribution(均匀分布)
- Heavy-tailed Distribution(长尾分布)
- Bernoulli Distribution(伯努利分布)/Binomial Distribution(二项分布)
- MultiBernoulli Distribution
- Exponential Distribution(指数分布)
- Laplace Distribution
- Dirac Distribution(狄拉克分布)
- Beta Distribution(Beta分布)
三 最大似然估计(Maximum likelihood estimation,MLE)
什么是重点?这就是重点!!!
- 概率(probability)与似然(likelihood):
- 概率:已知随机变量的分布,计算事件发生的可能性
示例:质量均匀的硬币,在抛掷之前,我们合理推测->正面出现的结果是50%,出现反面的结果也是50%
-
- 似然:通过实验得出事件发生的概率,推测事件的参数
- 关系:
- 如果结果和参数互相对应,似然和估计在数值上是相等的
- 似然和概率的因果关系不同
示例:硬币一面是数字,一面是花纹;抛掷10,000次,5,000次数字,5,000次花纹,我们合理推测->虽然正反图案不同,但是硬币应该是质量均匀分布的
- 概率函数和似然函数:
表示数据,表示模型参数
-
- 概率函数:模型参数
已知(即模型已经完全确定),求解发生的概率
- 似然函数:数据
已知(即知道样本具体数据),模型类型已知,求解模型参数
- 概率函数:模型参数
- 最大似然估计:
根据已知样本分布信息,反推最具有可能(最大似然)导致这些样本结果出现的模型参数值
模型已知,参数未定,通过样本数据评估模型参数
要求:所有的采样必须独立同分布,即采样之间互不影响,每次采样服从同一个分布
举例子:
抛硬币,抛了十次,7次数字,3次花纹,求解抛硬币的模型
抛硬币的结果数字/花纹,假设为二项分布
计算
由图像可以知道
虽然从图像中来看取0.5的时候缺失没有0.7高,但是内心还是有一个小声音说,硬币一般不都是分布均匀的吗,是不是我们算错了啊?来!我们来看贝叶斯的最大后验概率估计(Maximum a posteriori estimation,MAP)
四 贝叶斯定理
我们需要预估明天下雨的概率?
最简单直白的做法——>模拟“明天”发生N次,进行N次独立同分布实验,然后假设“明天是否下雨“服从二项分布,通过最大似然估计,计算参数,得到模型,然后根据模型预估明天下雨的概率
显然这是不可能的,那我们是不是没有办法预估"明天下雨"了呢?贝叶斯给出了他的解决方案
我们可以根据今天的天气状况,以及历史两天天气关系数据,预测明天天气。
|
- 贝叶斯定理
先验概率,即A发生的概率,可以是一个主观判断;后验概率,事件B发生的条件下,A发生的概率可能性函数,这是一个调整因子,即事件B的发生调整,作用是使鲜艳概率更加接近真实概率。,”先验概率“被增强,事件A发生的可能性变大,事件B无助于判断事件A的可能性,”先验概率“被削弱,事件A发生的可能性减小
- 继续解决下雨的问题:
1.
- 理解:
后验概率(新信息出现后A发生的概率)=先验概率(A发生的概率)*可能性函数(新信息带出现来的调整)
在主观判断的基础上,可以先估计一个值(先验概率),然后根据观察的新信息不断修改(可能性函数)
- 贝叶斯公式和全概率公式:
- 贝叶斯定理的意义:
生活中我们无法进行大量的独立同分布实验,来直接计算模型,最后估计某件事发生的概率
往往我们遇到的都是“逆概率”问题,通过一些已知的事件,预测另外一件事情发生的概率
- 等等,还没有结束,我们再来抛硬币(最大后验估计MAP)
最大似然估计的时候,我们总是觉得怪怪的,硬币应该是分布均匀的,二项分布的取0.7,有点怪怪的
MAP优化的是后验概率,即
上式中
假设
如果我们假设服从正态分布,会有更有意思的发现:在MAP中使用一个高斯分布的先验等价于在MLE中采用L2正则
五 参考文献
《深度学习 》([美]Ian,Goodfellow,[加]Yoshua,Bengio,[加]Aaron,Courville)【摘要 书评 试读】- 京东图书item.jd.com 正态分布的前世今生(一) | 我爱自然语言处理www.52nlp.cn 如何理解 95% 置信区间?www.zhihu.com