机器学习笔记（二）概率相关

最新推荐文章于 2023-12-31 09:50:10 发布

蛮荒蚩尤

最新推荐文章于 2023-12-31 09:50:10 发布

阅读量475

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/u011204927/article/details/49340329

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

概率只是一种削减计算量的常识———拉普拉斯

离散分布

对于离散分布的内容主要需要记住假设有一个离散集 $X$ , $x_i$ 代表其中的某一离散值，而 $p(x_i)$ 就代表离散集中取 $x_i$ 的概率，其中有 $0\leq p(x_i)\leq 1$ 并且有 $\sum_{x_i\in X}p(x_i) =1$

基本规则

两个事件的并集概率

$p(A\lor B)=p(A)+p(B)-p(A\land B)$

两个事件的联合概率

$P(A,B)=P(A\land B)=p(A|B)p(B)$
边缘分布概率如下
$P(A)=\sum_{b}^{}P(A,B)=\sum_{b}^{}P(A|B=b)p(b)$

条件概率

$p(A|B)=\frac{p(A,B)}{p(B)}$ if $p(B)\gt 0$

贝叶斯公式

$p(X=x|Y=y)=\frac{p(X=x,Y=y)}{p(Y=y)}=\frac{p(Y=y|X=x)p(X=x)}{p(Y=y)}$

生成模型和判别模型

生成模型最终需要求解的是 $p(y=c|x,\theta )$ ，并根据其条件密度 $p(x|y=c)$ 和先验概率p(y=c)来进行求解，而另外一种模型判别式模型我们会尝试直接拟合 $p(y=c| x)$

连续变量

对于连续变量，我们一般会用两种表示方式来进行表达，一种是累计分布函数cdf，一种是概率密度函数pdf，他们的关系如下 $f(x)=\frac{d}{d_x}F(x)$

平均和方差

分布的平均数，或者叫做期望，一般使用符号 $\mu$ 表示，如果是离散值 $\mu =\sum_{x\in X} xp(x)$ ,而连续变量的分布是 $\mu =\int_ X xp(x)$

中心极限定理

当随机分布的的均值是 $\mu$ ，方差是 $\sigma ^2$ 的时候，如果变量 $X_i$ 相互独立，从任意一个总体中抽取样本量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为μ、方差为 $\sigma ^2/n$ 的正态分布。

蒙特卡洛方法

有的时候我们直接使用变量的变化来计算随机分布的分布函数是挺困难的，但是蒙特卡洛方法提供了一种便利的手段来让我们估计样本的参数。随着随机样本数的提升，蒙特卡洛方法会越来越精确。
蒙特卡洛方法的基础公式如下

E [f (x)] = \int f (x) p (x) d x \approx 1 S \sum s = 1 S f (x s)

$E[f(x)]=\int f(x)p(x)dx\approx \frac {1}{S}\sum_{s=1}^{S}f(x_s)$
使用蒙特卡洛估计我们可以有如下一些参数估计

$\overline x=\frac {1}{S}\sum_{s=1}^{S}x_s$
$var[X]=\frac {1}{S}\sum_{s=1}^{S}(x_s-\overline x)$

信息论

熵

熵是来量化系统复杂度的一个值，其取值区间为非负数。当熵越大时，系统越复杂
$H(x)=-\sum_{k=1}^{K} p(X=k)log p(X=k)$
当然，对于连续值
$H(x)=-\int p(x)log p(x)$

KL散度

KL散度，又被叫做相对熵，是描述两个概率分布P和Q差异的一种方法。
具体计算方式如下
$KL(p||q)=\sum_{k=1}^{K}p_klog\frac{p_k}{q_k}$

互信息

当我们有两个不同的变量的时候，我们需要知道其中一个和另外一个是否有对应关系的时候，我们可以计算他们的相关系数，同时也可以计算他们的互信息。因为，我们主要关注的是 $p(x,y)$ 和 $p(x)p(y)$ 之间的对应关系，所以我们计算 $p(x,y)$ 和 $p(x)p(y)$ 的KL散度，即可。
$KL(p(x,y)||p(x)p(y))=\sum_{x}\sum_yp(x,y)log\frac{p(x,y)}{p(x)p(y)}$

蛮荒蚩尤

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记（二）概率相关

概率只是一种削减计算量的常识———拉普拉斯离散分布对于离散分布的内容主要需要记住假设有一个离散集XX,xix_i代表其中的某一离散值，而p(xi)p(x_i)就代表离散集中取xix_i的概率，其中有0≤p(xi)≤10\leq p(x_i)\leq 1并且有∑xi∈Xp(xi)=1\sum_{x_i\in X}p(x_i) =1基本规则两个事件的并集概率p(A∨B)=p(A
复制链接

扫一扫