统计机器学习概论
本节主要内容来源于B站视频(统计机器学习 上海交通大学 张志华主讲),同时结合了笔者的既往知识。该博客会不定期更新,将张志华老师的统计机器学习课程的知识点进行梳理。
1. 统计机器学习需要掌握的知识与技术?
包括四个方面:
- 矩阵知识:在机器学习中,数据保存为矩阵。如设计矩阵(design matrix),其以每个样本为行向量,该矩阵在机器学习和多元统计中都有极其广泛的应用。
- 最优化方法:最优化方法为拟合机器学习模型的相关参数提供了方法。
- 算法:针对适合的问题采用适合的算法,才能有效地解决相关的机器学习问题。
- 统计:概率论和统计学相关知识为开发相关的算法提供了支持。
2.统计机器学习(SML)的问题分类
- 降维(Dimensionality Reduction):采用线性或非线性放啊将高维空间中的数据投向低维度空间。
- 聚类(clustering):按某种方法将具有关联的数据进行分类的分类。降维和聚类是机器学习中的无监督学习(unsupervised learning)。
- 分类(classification):输入样本点(sample point),进而输出所属类别(如二分类{-1, 1})。
- 回归(regression):输入样本点,进而输出预测的数值大小。事实上,机器学习中如logistic regresion和感知机(perceptron)等是采用回归的计算方法,但output为分类变量。
- 排序(ranking):如网页排序问题等。一种典型的SML方法是保序回归(isotonic regression)。
1和2是常见的无监督学习问题(unsupervised learning);而后三种为常见的有监督学习问题(supervised learning)。
3. 参数估计:频率方法与贝叶斯方法
对于频率派和贝叶斯派的讨论多见于统计学的相关教材中。频率派始于R.A. Fisher等人的思想,认为在拟合统计模型时未知的参数为常量(constant);贝叶斯派则认为待拟合的统计模型中的未知参数也为随机变量,即处于某种概率空间中。事实上,与统计学中还偏重频率派有所区别,在机器学习实践中,贝叶斯派相关方法已经有了极广泛的应用。
下面对两种机器学习参数估计方法进行简要介绍:
- 频率派(frequentist approach):比如在回归问题中采用的最小二乘估计:
θ ∗ = arg min θ ( ∑ i = 1 n ( y i − x i T a ) 2 ) \theta^* = {\argmin}_{\theta}(\sum_{i=1}^{n}\left ( \displaystyle y_i -x_i^Ta \right )^2) θ∗=argminθ(i=1∑n(yi−xiTa)2)
以及最大似然估计(下式即为likelihood):
L ( θ ) = ∏ i = 1 n P ( y i ∣ θ ) L\left ( \theta\right ) = \prod_{i=1}^{n}P\left ( y_i| \theta\right ) L(θ)=i=1∏nP(yi∣θ)
实际计算中常对似然函数取对数,得到对数似然函数在进一步采用梯度下降算法等方法进行最优化估计:
l ( θ ) = l o g ( L ( θ ) ) = l o g ( ∏ i = 1 n P ( y i ∣ θ ) ) l\left ( \theta\right )= log(L(\theta)) = log(\prod_{i=1}^{n}P\left ( y_i| \theta\right )) l(θ)=log(L(θ))=log(i=1∏nP(yi∣θ))
处理对数似然函数得到参数的估计:
θ ∗ = arg max θ ( l ( θ ) ) \theta^* = {\arg\max}_{\theta}(l(\theta)) θ∗=argmaxθ(l(θ)) - 贝叶斯派(Bayesian approach):为参数提供某种适合的先验分布(prior distribution),而后以让后验(posterior)最大为目的,对prior中的未知参数进行计算:
例如,在估计参数θ时,假设参数服从正态分布: P ( θ ) = N ( 0 , σ 2 ) P(\theta) = N (0, \sigma^2) P(θ)=N(0,σ2)
而后将该先验分布代入贝叶斯公式后进行计算:
P ( θ ∣ X , y ) = P ( y ∣ X , θ ) P ( θ ) P ( y ∣ X ) ( ∗ ) P(\theta | X, y) = \frac{P(y|X, \theta)P(\theta)}{P(y|X)} (*) P(θ∣X,y)=P(y∣X)P(y∣X,θ)P(θ)(∗)
上式中 P ( y ∣ X ) = ∫ P ( y ∣ X , θ ) P ( θ ) d θ P(y|X) = \int P(y|X, \theta)P(\theta)d\theta P(y∣X)=∫P(y∣X,θ)P(θ)dθ为边缘似然(marginal likelihood)。
最大后验估计(maximum posterior estimate, MAP)即使(*)中的
P
(
θ
∣
X
,
y
)
P(\theta | X, y)
P(θ∣X,y)最大,若该后验为凹函数,即有:
θ
∗
=
arg max
θ
(
P
(
θ
∣
X
,
y
)
)
\theta^* = {\argmax}_{\theta}(P(\theta | X, y))
θ∗=argmaxθ(P(θ∣X,y))
实际情况下,往往对对上式添加负号后求最小值,即:
θ
∗
=
−
arg min
θ
(
P
(
θ
∣
X
,
y
)
)
\theta^* = -{\argmin}_{\theta}(P(\theta | X, y))
θ∗=−argminθ(P(θ∣X,y))
除MAP 外,对θ的估计还可以采用抽样的方法完成。
4. 频率派和贝叶斯派的统一
事实上,频率派的参数估计方法和贝叶斯派的参数估计方法具有统一性。比如,在logistic回归中,我们得到正则化后的负对数似然函数(也为损失函数):
− l o g ( L ( θ ) ) = − 1 N Σ ( y i l o g ( p i + ( 1 − y i ) l o g ( 1 − p i ) ) ) + 1 2 a T a = f + h -log(L(\theta))=-\frac{1}{N}\Sigma (y_{i} log(p_{i} + (1-y_{i})log(1-p_{i}))) + \frac{1}{2}a^Ta=f+h −log(L(θ))=−N1Σ(yilog(pi+(1−yi)log(1−pi)))+21aTa=f+h
对该损失函数进行求导,进而得到对A的估计则为频率派的方法。同时,上述损失函数也可进行简单变换后转化为类似贝叶斯公式的形式:
根据对数打分原则:
对以上函数取指数 e x p { − ( f + h ) } exp\{-(f+h)\} exp{−(f+h)},则上式变形为 e x p { − f } × e x p { − h } exp\{-f\}\times exp\{-h\} exp{−f}×exp{−h},可观察发现这与MAP方法 P ( θ ∣ X ) ∝ P ( X ∣ θ ) P ( θ ) P(\theta|X)\propto P(X|\theta)P(\theta) P(θ∣X)∝P(X∣θ)P(θ)中右侧的两项可以对应上。因此频率派和贝叶斯派一定程度达成了统一。
需要注意的是,频率派方法中若缺乏正则化的损失函数,则取对数后依然缺少替代先验的一项。因此,这也说明了在频率派方法所列出的loss function中添加panelty即使从数学角度上也具有十足的合理性。