machine learning_probability

关于随机变量的数字特征
均值,方差,协方差更专业的说法叫做随机变量的数字特征,均值叫做一阶中心距,方差叫做二阶中心距等等
均值:
E ( X ) = ∫ − ∞ + ∞ x ∗ p ( x ) d x E(X)= \int_{-\infty}^{+\infty}x*p(x)dx E(X)=+xp(x)dx
方差:
V a r ( x ) = ∫ − ∞ + ∞ p x ∗ ( x − E ( x ) ) 2 d x Var(x) = \int_{-\infty}^{+\infty}px*(x-E(x))^2dx Var(x)=+px(xE(x))2dx
我们说数字特征能够反映出样本的特点和信息,实际上可以将上述和 p ( x ) p(x) p(x)相乘(做内积)的函数(向量)考虑成探针,用于探测概率密度为 p ( x ) p(x) p(x)这个随机变量 X X X的特征。不同的测量函数有不同的展开。

如何理解事件独立?
实际上 P ( A ∣ B ) = P ( A ) P(A\mid B)=P(A) P(AB)=P(A)表示A与B相互独立
而有些同学可能会混淆 P ( A ⋂ B ) ≠ ∅ P(A\bigcap B)\neq\empty P(AB)=和A与B相互独立这两个概念
以下图为例,图中显然A与B是有交集的,但是仍然不影响A与B独立的概念,只需要:
P ( A ⋂ B ) P ( B ) = P ( A ) {P(A\bigcap B)\over P(B)}=P(A) P(B)P(AB)=P(A)
A A A发生的概率等于 A ⋂ B A\bigcap B AB事件在 B B B中发生的概率
在这里插入图片描述

关于最大似然估计
如果给定一个随机变量的分布,例如已知数据点服从高斯分布,那么只需要知道均值和方差即能够得到该分布。现有一堆数据点,比如多项式曲线拟合,为了得到 w w w,我们建立了一个损失函数 L ( w ) L(w) L(w),我们通过最小化 L ( w ) L(w) L(w)得到我们的参数 w w w
实际上可以将这个过程理解为,为了得到我们的参数 w w w,我们建立了一个评价函数,使得 w w w和该评价函数相关联。
最大似然函数 ( M L E ) (MLE) (MLE) max ⁡ μ , σ L ( X ; μ , σ ) \max_{\mu ,\sigma}L(X;\mu,\sigma) μ,σmaxL(X;μ,σ)
其中 X X X是随机变量, X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) XN(μ,σ2)
求解的条件为: ∂ L ∂ μ = 0 \frac{\partial L}{\partial \mu}=0 μL=0 ∂ L ∂ σ 2 = 0 \frac{\partial L}{\partial \sigma^2}=0 σ2L=0
为什么MLE方程需要取 l o g log log —防止溢出
提示:有余力的同学可以去学习CMU的凸优化
拓展:在多项式拟合曲线的实验中,除了使用OLS建立的loss function,是否可以使用MLE,建议最大似然函数,两者是否等价?(等价,可参考Bishop的书)

Homework:
在这里插入图片描述

在多项式拟合实验中:
L ( W ) = ∑ ( y ( x n , w ) − t n ) 2 + λ ∥ w ∥ ) L(W) = \sum ({y(x_{n},w)-t_{n}})^2+\lambda \parallel w\parallel) L(W)=(y(xn,w)tn)2+λw)
可以将w看成是未知的先验项,我们所做的是要通过观测到的随机变量 X X X,得到对 w w w的估计。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值