L2-Basics of Probability Theory

最新推荐文章于 2022-02-28 18:17:06 发布

Nhrun

最新推荐文章于 2022-02-28 18:17:06 发布

阅读量168

点赞数

分类专栏： Machine Learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_31934583/article/details/103754499

版权

Machine Learning 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Outline

Univariate Probability Distributions
Multivariate Probability–Bayes’ Theorem
Parameter Estimation

1. Univariate Probability Distributions

Univariate-单变量的，Multivariate-多变量的
单变量概率分布：

1.1 Binomial and Bernoulli Distributions

–二项分布和伯努利分布
二项分布和伯努利分布的数学描述

1.2 Multinomial Distribution

– 多项分布
二项分布对应扔硬币，只有正/反两面。多项分布对应扔骰子，有6面。
在这里插入图片描述

1.3 Categorical Distribution

二项分布：n次独立重复实验
伯努利分布：n=1的二项分布

多项分布：结果有不止两个类别的n次独立重复实验
Categorical Distribution:n=1的多项分布

one-hot向量：该向量中，只有1个1，其余都是0，比如[0 0 0 0 0 1 0 0 0 0]
categorical distribution数学描述

1.4 Gaussian(Normal) Distribution

正态分布的数学描述

2. Multivariate Probability

2.1 Joint probability mass function

mass - 随机变量是离散的
如果随机变量是连续的，就会用联合概率密度函数

联合概率质量函数
P(Rent, Type)：特征2个，每个特征有三个取值

2.2 Multivariate Gaussian Distributions

连续的变量，常用的联合分布是多元高斯分布
2元高斯分布图形

2.3 Marginal probability

Marginal probability

2.4 Conditional probability

在这里插入图片描述

2.5 Marginal independence

for any state x of X and any state y of Y,
P(X=x| Y=y)=P(X=x), whenever P(Y=y) != 0.
Y contains no information about X and vice versa.
如果说X和Y边缘独立，那么有：
P(X|Y)=P(X)
P(Y|X)=P(Y)
P(X,Y) = P(X)P(Y)

2.6 Conditional independence

如果说X和Y条件独立，那么有：
P(X|Y,Z) = P(X|Z)
P(X,Y|Z) = P(X|Z)P(Y|Z)

2.7 Bayes Rule

先验概率：P(H)
后验概率：P(H|E)
likelihood: P(E|H),又用L(E|H)表示

如果有：P(H1|E)>P(H2|E), 那么说明在已有的E条件下，H1比H2更有可能导致/引起E
机器学习中，通常用数据D,模型M,描述一个模型解释数据D的程度，就用likelihood
L(M|D) = P(D|M)
贝叶斯理论

3. Parameter Estimation

3.1 Maximum Likelihood Estimation

最大似然估计

L(theta | D) = P(D | theta)
theta 有若干个取值，在这若干个取值中条件概率P(D | theta)最大的对应的theta的值就是通过最大似然估计得到的theta*

3.1.1 i.i.d

i.i.d – 事件之间相互独立，概率分布相同
假设数据集中的数据满足i.i.d，那么可以通过把联合概率化成若干个概率联乘进行计算。
i.i.d

3.1.2 Loglikelihood

介绍独立同分布时，引入了Binomial likelihood.
他是假设数据集中每个数据都符合同一个二项分布，在计算似然值时转化为概率联乘。

此处的Loglikelihood,就是在原来的L(theta | D)外面加了log运算，用l(theta | D)来表示：
即， l(theta | D) = log L(theta | D)

3.1.3 Drawback of MLE

无法从估计出来的结果判断数据集是否量不够。
比如，抛一个质量均匀的硬币，已有的经验告诉我们抛到正面的概率是0.5. 但是数据集中的数据刚好是7次正面，3次反面，通过MLE我们得出正面的概率是0.7。然而，如果抛到正面的次数是700000，反面300000，通过MLE得出正面的概率还是0.7. MLE不能区分出来这两种情况。

3.2 Bayesian Estimation

非本课关注，后续补充（slides P47-52）。
比起最大似然估计，贝叶斯估计可以加入先验知识进行参数估计，但是数学上的运算稍微复杂一点。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
L2-Basics of Probability Theory

OutlineUnivariate Probability DistributionsMultivariate Probability–Bayes’ TheoremParameter Estimation1. Univariate Probability DistributionsUnivariate-单变量的，Multivariate-多变量的单变量概率分布：1.1 Bino...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。