<机器学习><白板推导系列><一>


对于概率模型而言,存在两种学派:频率派和贝叶斯派。

频率派 -> 统计机器学习
贝叶斯派 -> 概率图模型

参考书籍:
  1. 李航《统计学习方法,侧重于以频率派的较角度,十个算法(感 K 朴 决 逻, 支 提(boosting) E 隐 条)
  2. 周志华 “西瓜书”《机器学习》,囊括多种算法
  3. PRML 模式识别与机器学习 ,侧重于以贝叶斯派的角度,(回 分 神 核 稀 ;图 混 近 采 连;顺 组 )
  4. MLAPP 以概率的角度看机器学习 ,百科全书,侧重于以贝叶斯派的角度
  5. ESL 统计学习的基本要素 ,侧重于以频率派的较角度
  6. Deep Learning 花书 圣经 [中译本,张志华团队]
参考视频:
  1. 台大 林轩田 机器学习基石->讲得很精彩,也很通俗化(VC therory; 正则化;线性模型:linear regression,logistic regression, PLA,感知机);机器学习技法(SVM->讲的很好,决策树,随机森林,神经网络,deep learning->浅谈)
  2. 张志华 机器学习导论(以频率派的角度) 统计机器学习(以贝叶斯的角度,偏理论数学)
  3. 徐亦达 2015 概率模型 (EM,MCMC,HMM, 滤波算法) github/notes(很全面)
  4. 台大 李宏毅 ML2017 MLDS2018

Notes

样本集 X 包含N个样本, 每个样本的特征维度为p(也就是说 每一样本是长度为p的列向量):
X = ( x 1 , x 2 , . . . , x N ) T ∈ R N × p x i = ( x 1 i , x 2 i , . . . , x p i ) T ∈ R p × 1 X = (x^1, x^2, ..., x^N)^T \in \mathbb{R^{N \times p}} \\ x^i = (x_1^i, x_2^i, ..., x_p^i)^T \in \mathbb{R^{p \times1}} X=(x1,x2,...,xN)TRN×pxi=(x1i,x2i,...,xpi)TRp×1

概率模型:
x ∼ p ( x ∣ θ ) x \sim p(x|\theta) xp(xθ)

频率派的观点

对于概率模型 x ∼ p ( x ∣ θ ) x \sim p(x|\theta) xp(xθ),频率派认为参数 θ \theta θ是未知常量,而数据样本 x x x是随机变量。关注点是数据,而将未知常量估计出来。最常用的就是采用最大似然估计去对参数进行估计:
x i ∼ p ( x ∣ θ ) s a t i f i e d i . i . d . c o n d i t i o n p ( X ∣ θ ) = ∏ i = 1 N p ( x i ∣ θ ) L ( θ ) = l o g p ( X ∣ θ ) θ M L E = arg ⁡ max ⁡ l o g p ( X ∣ θ ) = arg ⁡ max ⁡ ∑ i = 1 N l o g p ( x i ∣ θ ) x_i \sim p(x|\theta) \quad satified \quad i.i.d. \quad condition\\ p(X|\theta) = \prod_{i=1}^N p(x^i|\theta) \\ \mathcal{L}(\theta) = log p(X|\theta)\\ \theta_{MLE} = \mathop{\arg\max} log p(X|\theta) = \mathop{\arg\max} \sum_{i=1}^N log p(x^i|\theta) xip(xθ)satifiedi.i.d.conditionp(Xθ=i=1Np(xiθ)L(θ)=logp(XθθMLE=argmaxlogp(Xθ)=argmaxi=1Nlogp(xiθ)
频率派对应的是统计机器学习方法,求解问题实际上是一个优化问题,通过构建模型,得到 l o s s f u n c t i o n loss \quad function lossfunction,最后通过最小化损失函数求解得到参数。

贝叶斯派的观点

对于概率模型 x ∼ p ( x ∣ θ ) x \sim p(x|\theta) xp(xθ),贝叶斯派认为参数是服从某种概率分布的随机变量 θ ∼ p ( θ ) \theta \sim p(\theta) θp(θ)。该分布称为参数的先验分布。参数的后验分布为:
p ( θ ∣ X ) = p ( X ∣ θ ) ⋅ p ( θ ) p ( X ) = p ( X ∣ θ ) ⋅ p ( θ ) ∫ θ p ( X ∣ θ ) ⋅ p ( θ ) d θ p(\theta|X) = \frac{p(X|\theta) \cdot p(\theta)}{p(X)} = \frac{p(X|\theta) \cdot p(\theta)}{\int_{\theta}p(X|\theta)\cdot p(\theta)d\theta} p(θX)=p(X)p(Xθ)p(θ)=θp(Xθ)p(θ)dθp(Xθ)p(θ)
其中,概率分布 p ( X ∣ θ ) p(X|\theta) p(Xθ)称为似然。
常用的参数估计方法为最大后验概率估计:
θ M A P = arg ⁡ max ⁡ l o g p ( θ ∣ X ) = arg ⁡ max ⁡ p ( X ∣ θ ) ⋅ p ( θ ) \theta_{MAP} = \mathop{\arg\max} log p(\theta|X) = \mathop{\arg\max} p(X|\theta) \cdot p(\theta) θMAP=argmaxlogp(θX)=argmaxp(Xθ)p(θ)
贝叶斯估计:
p ( θ ∣ X ) = p ( X ∣ θ ) ⋅ p ( θ ) ∫ θ p ( X ∣ θ ) ⋅ p ( θ ) d θ p(\theta|X) = \frac{p(X|\theta) \cdot p(\theta)}{\int_{\theta}p(X|\theta)\cdot p(\theta)d\theta} p(θX)=θp(Xθ)p(θ)dθp(Xθ)p(θ)
贝叶斯预测,对于给定预测样本:
p ( x ~ ∣ X ) = ∫ θ p ( x ~ , θ ∣ X ) d θ = ∫ θ p ( x ~ ∣ θ ) ⋅ p ( θ ∣ X ) d θ p(\tilde{x}|X) = \int_{\theta}p(\tilde{x},\theta|X)d\theta = \int_{\theta}p(\tilde{x}|\theta)\cdot p(\theta|X)d\theta p(x~X)=θp(x~,θX)dθ=θp(x~θ)p(θX)dθ
贝叶斯派对应的是概率图模型,实际上是一个求解积分的问题,可以采用Monte Carlo Method(MCMC)进行采样。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值