L2-Basics of Probability Theory

Outline

  1. Univariate Probability Distributions
  2. Multivariate Probability–Bayes’ Theorem
  3. Parameter Estimation

1. Univariate Probability Distributions

Univariate-单变量的,Multivariate-多变量的
单变量概率分布:

1.1 Binomial and Bernoulli Distributions

–二项分布和伯努利分布
二项分布和伯努利分布的数学描述

1.2 Multinomial Distribution

– 多项分布
二项分布对应扔硬币,只有正/反两面。多项分布对应扔骰子,有6面。
在这里插入图片描述

1.3 Categorical Distribution

二项分布:n次独立重复实验
伯努利分布:n=1的二项分布

多项分布:结果有不止两个类别的n次独立重复实验
Categorical Distribution:n=1的多项分布

one-hot向量:该向量中,只有1个1,其余都是0,比如[0 0 0 0 0 1 0 0 0 0]
categorical distribution数学描述

1.4 Gaussian(Normal) Distribution

正态分布的数学描述


2. Multivariate Probability

2.1 Joint probability mass function

mass - 随机变量是离散的
如果随机变量是连续的,就会用联合概率密度函数

联合概率质量函数
P(Rent, Type):特征2个,每个特征有三个取值

2.2 Multivariate Gaussian Distributions

连续的变量,常用的联合分布是多元高斯分布
2元高斯分布图形

2.3 Marginal probability

Marginal probability

2.4 Conditional probability

在这里插入图片描述

2.5 Marginal independence

for any state x of X and any state y of Y,
P(X=x| Y=y)=P(X=x), whenever P(Y=y) != 0.
Y contains no information about X and vice versa.
如果说X和Y边缘独立,那么有:
P(X|Y)=P(X)
P(Y|X)=P(Y)
P(X,Y) = P(X)P(Y)

2.6 Conditional independence

如果说X和Y条件独立,那么有:
P(X|Y,Z) = P(X|Z)
P(X,Y|Z) = P(X|Z)P(Y|Z)

2.7 Bayes Rule

先验概率:P(H)
后验概率:P(H|E)
likelihood: P(E|H),又用L(E|H)表示

如果有:P(H1|E)>P(H2|E), 那么说明在已有的E条件下,H1比H2更有可能导致/引起E
机器学习中,通常用数据D,模型M,描述一个模型解释数据D的程度,就用likelihood
L(M|D) = P(D|M)
贝叶斯理论


3. Parameter Estimation

3.1 Maximum Likelihood Estimation

最大似然估计

L(theta | D) = P(D | theta)
theta 有若干个取值,在这若干个取值中条件概率P(D | theta)最大的对应的theta的值就是通过最大似然估计得到的theta*

3.1.1 i.i.d

i.i.d – 事件之间相互独立,概率分布相同
假设数据集中的数据满足i.i.d,那么可以通过把联合概率化成若干个概率联乘进行计算。
i.i.d

3.1.2 Loglikelihood

介绍独立同分布时,引入了Binomial likelihood.
他是假设数据集中每个数据都符合同一个二项分布,在计算似然值时转化为概率联乘。

此处的Loglikelihood,就是在原来的L(theta | D)外面加了log运算,用l(theta | D)来表示:
即, l(theta | D) = log L(theta | D)
Loglikelihood

3.1.3 Drawback of MLE

无法从估计出来的结果判断数据集是否量不够。
比如,抛一个质量均匀的硬币,已有的经验告诉我们抛到正面的概率是0.5. 但是数据集中的数据刚好是7次正面,3次反面,通过MLE我们得出正面的概率是0.7。然而,如果抛到正面的次数是700000,反面300000,通过MLE得出正面的概率还是0.7. MLE不能区分出来这两种情况。

3.2 Bayesian Estimation

非本课关注,后续补充(slides P47-52)。
比起最大似然估计,贝叶斯估计可以加入先验知识进行参数估计,但是数学上的运算稍微复杂一点。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值