机器学习02-第三章
算法原理
- 正交回归和线性回归
- 线性回归:预测误差(点到直线平行与y轴的距离)最小的那条直线,即均方误差最小,因此有线性回归函数的损失函数
- 正交回归:点到线垂直距离最小的那条直线
线性回归的最小二乘估计和极大似然估计
- 最小二乘估计
- 基于均方误差最小化进行模型求解
a r g m i n ( w , b ) arg min_{(w,b)} argmin(w,b):表示求公式值最小时的w和b
-
极大似然估计
- 用途:估计概率分布的参数值
- 例题:
计算技巧:
- 一元线性回归极大似然估计推导一元线性回归
求解w和b
- 多元函数求最值点问题(凸函数最值点)
- 对w,b求一阶偏导=0
- 凸集:若两个点属于此集合,则这两点连线上的任意一点均属于此集合,常见的凸集有空集,n维欧氏空间
- 凸函数:机器学习和高数中的不一样,因为机器函数使用的时最优化后的,在此,机器学习上的凸函数是数学定义的凹函数
- 梯度(多元函数的一阶导)-列向量
- 海塞矩阵(多元函数的二阶导数):
- 求证过程
|
|
|
|
|
|
|
|
|
|
|
|
机器学习三要素
- 模型:根据具体问题,确定假设空间
- 策略:根据评价标准,确定选取最优模型的策略
- 算法:求解损失函数,确定最优模型
由最小二乘法导出损失函数 E w ^ E_{\hat{w}} Ew^
|
|
|
|
|
|
求解 w ^ \hat{w} w^
|
|
|
|
|
|
对数几率回归
算法原理
- 在线性模型的基础上套一个映射函数来实现分类功能
损失函数的极大似然估计推导
- 第一步:确定概率质量函数
p ( y = 1 ∣ x ) = 1 1 + e − ( w T x + b ) = e w T x + b 1 + e w T x + b p(y=1|x)=\frac{1}{1+e^{-(w^{T}x+b)}}=\frac{e^{w^{T}x+b}}{1+e^{w^{T}x+b}} p(y=1∣x)=1+e−(wTx+b)1=1+ewTx+bewTx+b
p ( y = 0 ∣ x ) = 1 − p ( y = 1 ∣ x ) = 1 1 + e w T x + b p(y=0|x)=1-p(y=1|x)=\frac{1}{1+e^{w^{T}x+b}} p(y=0∣x)=1−p(y=1∣x)=1+ewTx+b1
为了便于讨论,令 β = ( w ; b ) , x ^ = ( x ; 1 ) \beta=(w;b),\mathbf{\hat{x}} =(\mathbf{x};1) β=(w;b),x^=(x;1),则上式可以简写为
p ( y = 1 ∣ x ^ ; β ) = e β T x ^ 1 + e β T x ^ = p 1 ( x ^ ; β ) p(y=1|\mathbf{\hat{x}};\beta)=\frac{e^{\beta^{T}}\mathbf{\hat{x}} }{1+e^{\beta^{T}}\mathbf{\hat{x}}}=p_1(\mathbf{\hat{x}};\beta) p(y=1∣x^;β)=1+eβTx^eβTx^=p1(x^;β)
p ( y = 0 ∣ x ^ ; β ) = 1 1 + e β T x ^ = p 0 ( x ^ ; β ) p(y=0|\mathbf{\hat{x}};\beta)=\frac{1 }{1+e^{\beta^{T}}\mathbf{\hat{x}}}=p_0(\mathbf{\hat{x}};\beta) p(y=0∣x^;β)=1+eβTx^1=p0(x^;β)
由以上概率取值可推得随机变量 y ϵ 0 , 1 y\epsilon{0,1} yϵ0,1的概率质量函数为
p ( y ∣ x ^ ; β ) = y ⋅ p 1 ( x ^ ; β ) + ( 1 − y ) ⋅ p 0 ( x ^ ; β ) 或者 p ( y ∣ x ^ ; β ) = [ p 1 ( x ^ ; β ) ] y [ p 0 ( x ^ ; β ) ] 1 − y p(y|\mathbf{\hat{x}};\beta)=y\cdot p_1(\mathbf{\hat{x}};\beta)+(1-y)\cdot p_0(\mathbf{\hat{x}};\beta)或者p(y|\mathbf{\hat{x}};\beta)=\begin{bmatrix} p_1(\mathbf{\hat{x}};\beta) \end{bmatrix}^y \begin{bmatrix} p_0(\mathbf{\hat{x}};\beta) \end{bmatrix}^{1-y} p(y∣x^;β)=y⋅p1(x^;β)+(1−y)⋅p0(x^;β)或者p(y∣x^;β)=[p1(x^;β)]y[p0(x^;β)]1−y - 第二步:写出似然函数
L ( β ) = ∏ i = 1 m p ( y i ∣ x ^ i ; β ) L(\beta)=\prod_{i=1}^{m} p(y_i|\mathbf{\hat{x}_i};\beta) L(β)=∏i=1mp(yi∣x^i;β)对数似然函数为
ℓ ( β ) = ln ( L ( β ) ) = ∑ i = 1 m ln ( p ( y i ∣ x ^ i ; β ) ) \ell(\beta)=\ln(L(\beta))=\sum_{i=1}^{m}\ln(p(y_i|\mathbf{\hat{x}_i};\beta)) ℓ(β)=ln(L(β))=∑i=1mln(p(yi∣x^i;β))
ℓ ( β ) = ∑ i = 1 m ln ( y i ⋅ p 1 ( x ^ i ; β ) + ( 1 − y i ) ⋅ p 0 ( x ^ i ; β ) ) \ell(\beta)=\sum_{i=1}^{m}\ln(y_i\cdot p_1(\mathbf{\hat{x}_i};\beta)+(1-y_i)\cdot p_0(\mathbf{\hat{x}_i};\beta)) ℓ(β)=∑i=1mln(yi⋅p1(x^i;β)+(1−yi)⋅p0(x^i;β)) - 将
p
1
(
x
^
i
;
β
)
=
e
β
T
x
^
i
1
+
e
β
T
x
^
i
,
p
0
(
x
i
^
;
β
)
=
1
1
+
e
β
T
x
^
i
p_1(\mathbf{\hat{x}_i};\beta)=\frac{e^{\beta^{T}}\mathbf{\hat{x}_i} }{1+e^{\beta^{T}}\mathbf{\hat{x}_i}},p_0(\mathbf{\hat{x_i}};\beta)=\frac{1}{1+e^{\beta^{T}}\mathbf{\hat{x}_i}}
p1(x^i;β)=1+eβTx^ieβTx^i,p0(xi^;β)=1+eβTx^i1带入上式可得
ℓ = ∑ i = 1 m ln ( y i e β T x ^ i 1 + e β T x ^ i + 1 − y i 1 + e β T x ^ i ) = ∑ i = 1 m ln ( y i e β T + 1 − y i x ^ i 1 + e β T x ^ i ) \ell=\sum_{i=1}^{m}\ln(\frac{y_ie^{\beta^{T}}\mathbf{\hat{x}_i} }{1+e^{\beta^{T}}\mathbf{\hat{x}_i}}+\frac{1-y_i}{1+e^{\beta^{T}}\mathbf{\hat{x}_i}})=\sum_{i=1}^{m}\ln(\frac{y_ie^{\beta^{T}}+1-y_i\mathbf{\hat{x}_i} }{1+e^{\beta^{T}}\mathbf{\hat{x}_i}}) ℓ=∑i=1mln(1+eβTx^iyieβTx^i+1+eβTx^i1−yi)=∑i=1mln(1+eβTx^iyieβT+1−yix^i)
由于 y i ϵ 0 , 1 y_i\epsilon{0,1} yiϵ0,1则
ℓ ( β ) = { ∑ i = 1 m ( − ln ( 1 + e β T x ^ i ) ) , y i = 0 ∑ i = 1 m ( β T x ^ i − ln ( 1 + e β T x ^ i ) ) , y i = 1 \ell(\beta)=\left\{\begin{matrix} \sum_{i=1}^{m}(-\ln(1+e^{\beta^{T}}\mathbf{\hat{x}_i}) ),y_i=0\\ \sum_{i=1}^{m}(\beta^{T}\mathbf{\hat{x}_i}-\ln(1+e^{\beta^{T}}\mathbf{\hat{x}_i}) ),y^i=1\end{matrix}\right. ℓ(β)={∑i=1m(−ln(1+eβTx^i)),yi=0∑i=1m(βTx^i−ln(1+eβTx^i)),yi=1两式综合可得
ℓ ( β ) = ∑ i = 1 m ( y i β T x ^ i − ln ( 1 + e β T x ^ i ) ) \ell(\beta)=\sum_{i=1}^{m}(y_i\beta^{T}\mathbf{\hat{x}_i}-\ln(1+e^{\beta^{T}}\mathbf{\hat{x}_i}) ) ℓ(β)=∑i=1m(yiβTx^i−ln(1+eβTx^i))
损失函数的信息论推导
- 信息论:以概率论、随机过程为基本研究工具,研究广义通信系统的整个过程。常见的应用由无损数据压缩(如ZIP文件)、有损数据压缩(如MP3和JPEG)等
- 自信息: I ( X ) = − log b p ( x ) I(X)=-\log_{b}^{p(x)} I(X)=−logbp(x),当b=2时单位时bit,当b=e时单位为net
- 信息熵(自信息上网期望):度量随机变量X的不确定性,信息熵越大越不确定
H ( X ) = E [ I ( x ) ] = − ∑ x p ( x ) log b p ( x ) H(X)=E[I(x)]=-\sum_xp(x)\log_bp(x) H(X)=E[I(x)]=−∑xp(x)logbp(x)(此处以离散型为例) - 计算熵是约定:若p(x)=0,则 p ( x ) log b p ( x ) = 0 p(x)\log_bp(x)=0 p(x)logbp(x)=0
- 相对熵(KL散度):度量两个分布的差异,其典型使用场景是用来度量理想分布如
p
(
x
)
p(x)
p(x)和模拟分布
q
(
x
)
q(x)
q(x)之间的差异
D K L ( p ∣ ∣ q ) = ∑ x p ( x ) log b ( p ( x ) q ( x ) ) = ∑ x p ( x ) log b p ( x ) − ∑ x p ( x ) log b q ( x ) D_{KL}(p||q)=\sum_xp(x)\log_b(\frac{p(x)}{q(x)})=\sum_xp(x)\log_bp(x)-\sum_xp(x)\log_bq(x) DKL(p∣∣q)=∑xp(x)logb(q(x)p(x))=∑xp(x)logbp(x)−∑xp(x)logbq(x),其中 − ∑ x p ( x ) log b q ( x ) -\sum_xp(x)\log_bq(x) −∑xp(x)logbq(x)称为交叉熵 - 从“策略”角度来讲,与理想分布最接近的模拟分布即为最有分布,因此可以通过最小化相对熵这个策略来求出最有分布,由于理想分布p(x)是未知但固定的分布(频率学派的角度),所以 ∑ x p ( x ) log b q ( x ) \sum_xp(x)\log_bq(x) ∑xp(x)logbq(x)为常量,那么最小化相对熵就等价于最小化交叉熵 − ∑ x p ( x ) log b q ( x ) -\sum_xp(x)\log_bq(x) −∑xp(x)logbq(x)
- 对数几率回归算法的机器学习三要素
- 模型:线性模型,输出范围为[0,1],近似阶跃的单调可微函数
- 策略:极大似然估计,信息论
- 算法:梯度下降,牛顿法
二分类线性判别分析
算法原理
- 从几何的角度,让全体训练样本经过投影后:
- 异类样本的中心尽可能远
- 同类样本的方差尽可能小
损失函数推导
经过投影后,异类样本中心尽可能远
m
a
x
∣
∣
w
T
μ
0
−
w
T
μ
1
∣
∣
2
2
max||w^T\mu_0-w^T\mu_1||_2^2
max∣∣wTμ0−wTμ1∣∣22(二范数:求向量模长)
m
a
x
∣
∣
∣
w
∣
⋅
∣
μ
0
∣
⋅
cos
θ
0
−
∣
w
∣
⋅
∣
μ
1
∣
⋅
cos
θ
1
∣
∣
2
2
max|||w|\cdot |\mu_0|\cdot \cos\theta_0-|w|\cdot |\mu_1|\cdot \cos\theta_1||_2^2
max∣∣∣w∣⋅∣μ0∣⋅cosθ0−∣w∣⋅∣μ1∣⋅cosθ1∣∣22
经过投影后,同类样本的方差尽可能小
m
i
n
w
T
∑
0
w
min w^T\sum_0w
minwT∑0w
拉格朗日乘子法
- 对于仅含等式的优化问题:
min x \underset{x}{\min} xmin f ( x ) f(x) f(x)
s . t . s.t. s.t. h i ( x ) = 0 h_i(x)=0 hi(x)=0 i = 1 , 2... , n i=1,2...,n i=1,2...,n
其中自变量 x ϵ R n , f ( x ) 和 h ( x ) x\epsilon R^n,f(x)和h(x) xϵRn,f(x)和h(x)均有连续的一阶偏导数,首先列入其拉格朗日函数
L ( x , λ ) = f ( x ) + ∑ i = 1 n λ i h i ( x ) L(x,\lambda )=f(x)+\sum_{i=1}^n\lambda_ih_i(x) L(x,λ)=f(x)+∑i=1nλihi(x),其中 λ = ( λ 1 , λ 2 , . . . , λ n ) T \lambda=(\lambda_1,\lambda_2,...,\lambda_n)^T λ=(λ1,λ2,...,λn)T为拉格朗日乘子,然后对拉格朗日函数关于x求偏导,并令倒数等于0再搭配约束条件 h i ( x ) = 0 h_i(\mathbf{x})=0 hi(x)=0求出x,求解出的所有x即为上述优化问题的所有可能极值点
求解w
|
|
|
|
广义特征值和广义瑞利商
厄米矩阵(对称矩阵)满足: A H = A A^H=A AH=A;等于实数时: A H = A T = A A^H=A^T=A AH=AT=A