Outline
- Univariate Probability Distributions
- Multivariate Probability–Bayes’ Theorem
- Parameter Estimation
1. Univariate Probability Distributions
Univariate-单变量的,Multivariate-多变量的
单变量概率分布:
1.1 Binomial and Bernoulli Distributions
–二项分布和伯努利分布
1.2 Multinomial Distribution
– 多项分布
二项分布对应扔硬币,只有正/反两面。多项分布对应扔骰子,有6面。
1.3 Categorical Distribution
二项分布:n次独立重复实验
伯努利分布:n=1的二项分布
多项分布:结果有不止两个类别的n次独立重复实验
Categorical Distribution:n=1的多项分布
one-hot向量:该向量中,只有1个1,其余都是0,比如[0 0 0 0 0 1 0 0 0 0]
1.4 Gaussian(Normal) Distribution
2. Multivariate Probability
2.1 Joint probability mass function
mass - 随机变量是离散的
如果随机变量是连续的,就会用联合概率密度函数
P(Rent, Type):特征2个,每个特征有三个取值
2.2 Multivariate Gaussian Distributions
连续的变量,常用的联合分布是多元高斯分布
2.3 Marginal probability
2.4 Conditional probability
2.5 Marginal independence
for any state x of X and any state y of Y,
P(X=x| Y=y)=P(X=x), whenever P(Y=y) != 0.
Y contains no information about X and vice versa.
如果说X和Y边缘独立,那么有:
P(X|Y)=P(X)
P(Y|X)=P(Y)
P(X,Y) = P(X)P(Y)
2.6 Conditional independence
如果说X和Y条件独立,那么有:
P(X|Y,Z) = P(X|Z)
P(X,Y|Z) = P(X|Z)P(Y|Z)
2.7 Bayes Rule
先验概率:P(H)
后验概率:P(H|E)
likelihood: P(E|H),又用L(E|H)表示
如果有:P(H1|E)>P(H2|E), 那么说明在已有的E条件下,H1比H2更有可能导致/引起E
机器学习中,通常用数据D,模型M,描述一个模型解释数据D的程度,就用likelihood
L(M|D) = P(D|M)
3. Parameter Estimation
3.1 Maximum Likelihood Estimation
L(theta | D) = P(D | theta)
theta 有若干个取值,在这若干个取值中条件概率P(D | theta)最大的对应的theta的值就是通过最大似然估计得到的theta*
3.1.1 i.i.d
i.i.d – 事件之间相互独立,概率分布相同
假设数据集中的数据满足i.i.d,那么可以通过把联合概率化成若干个概率联乘进行计算。
3.1.2 Loglikelihood
介绍独立同分布时,引入了Binomial likelihood.
他是假设数据集中每个数据都符合同一个二项分布,在计算似然值时转化为概率联乘。
此处的Loglikelihood,就是在原来的L(theta | D)外面加了log运算,用l(theta | D)来表示:
即, l(theta | D) = log L(theta | D)
3.1.3 Drawback of MLE
无法从估计出来的结果判断数据集是否量不够。
比如,抛一个质量均匀的硬币,已有的经验告诉我们抛到正面的概率是0.5. 但是数据集中的数据刚好是7次正面,3次反面,通过MLE我们得出正面的概率是0.7。然而,如果抛到正面的次数是700000,反面300000,通过MLE得出正面的概率还是0.7. MLE不能区分出来这两种情况。
3.2 Bayesian Estimation
非本课关注,后续补充(slides P47-52)。
比起最大似然估计,贝叶斯估计可以加入先验知识进行参数估计,但是数学上的运算稍微复杂一点。