西瓜书南瓜书02
机器学习的三个步骤:
定假设空间:初步选定可能的模型
定优化方法:根据假设的特性选择合适的优化方法,通常是得出一个loss函数
定算法:实现模型,实现loss函数,参数迭代优化。
线性回归模型优化的两个角度:
1、均方误差最小化,求导获得最优点,得解
2、假设模型误差符合正态分布,利用最大似然估计求得最符合的正态分布时的表达式,求导得出最优点。(缺点:假设分布可能不准确,当线性模型不足以表达数据时,误差就会出现系统性分布而非随机分布,此时虽然可以求得解,但会带来无法缩小的误差)
3、由上述的缺点引出对数几率回归模型用于分类,非线性,无假设风险,输出可导,梯度可回传用于优化。用于回归任务时,任意阶可导,许多优化函数可以直接使用。
(其他的优化函数待扩充,以上两种方式的优劣和适用环境待扩充)
其他模型同理,但要注意非凸优化,以及复杂函数可能存在的局部最优陷阱。大多数机器学习的函数无法求出导函数,只能靠迭代求得梯度下降方向,因此会陷入局部最优陷阱。
广义线性模型:
F
(
y
)
=
w
T
x
+
b
F(y)=w^Tx+b
F(y)=wTx+b
增强了线性模型的表达能力
信息熵: 衡量一个分布的不确定性,均等分布最大,确定分布最小
I
(
x
)
=
−
l
o
g
a
P
(
x
)
I(x)=-log_aP(x)
I(x)=−logaP(x)
相对熵(KL散度):度量两个分布的差异。通常是给出一个理想分布p(x)和一个实际分布q(x),来刻画两个分布的差异
D
K
L
(
p
∣
∣
q
)
=
∑
x
p
(
x
)
∗
log
b
(
p
(
x
)
/
q
(
x
)
)
=
∑
x
p
(
x
)
log
b
p
(
x
)
−
∑
x
p
(
x
)
log
b
q
(
x
)
D_{KL}(p||q) = \sum_xp(x)*\log_b(p(x)/q(x)) = \sum_xp(x)\log_bp(x) - \sum_xp(x)\log_bq(x)
DKL(p∣∣q)=x∑p(x)∗logb(p(x)/q(x))=x∑p(x)logbp(x)−x∑p(x)logbq(x)
求得的值越大,二者分布差异越大,这个也可以作为一个优化函数来使用
其中,后半部被称为交叉熵,由于p(x)理想,未知,但固定,所以求导只剩下后半部,因此最小化相对熵等价于最小化交叉熵
对数几率回归算法的机器学习三要素:
模型:线性模型+对数衍生y,输出范围[0,1] ,近似阶跃的单调可微函数
策略:极大似然估计,最小化交叉熵
算法:梯度下降,牛顿法
LDA:投影降维,使得同类样本方差尽可能小,异类样本中心尽可能远。
为了实现这一目标,同时将投影长度转化为矩阵内积便于运算
max
∣
∣
w
T
μ
0
−
w
T
μ
1
∣
∣
2
2
\max|| w^T\mu_0 - w^T\mu_1||^2_2
max∣∣wTμ0−wTμ1∣∣22
min w T Σ 0 w \min w^T\Sigma_0 w minwTΣ0w
∣ ∣ a ∣ ∣ 2 2 二范数向量 a 的模长平方 ||a||_2^2 二范数 向量a的模长平方 ∣∣a∣∣22二范数向量a的模长平方
损失函数:
m
a
x
J
=
∣
∣
w
T
μ
0
−
w
T
μ
1
∣
∣
2
2
/
w
T
Σ
0
w
+
w
T
Σ
1
w
=
w
T
(
μ
0
−
μ
1
)
(
μ
0
−
μ
1
)
T
w
/
w
T
(
Σ
0
+
Σ
1
)
w
max J = ||w^T\mu_0-w^T\mu_1||^2_2 / w^T \Sigma_0 w + w^T \Sigma_1 w = w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw/w^T(\Sigma_0+\Sigma_1)w
maxJ=∣∣wTμ0−wTμ1∣∣22/wTΣ0w+wTΣ1w=wT(μ0−μ1)(μ0−μ1)Tw/wT(Σ0+Σ1)w
= > m a x J = w T S b w / w T S w w = > m i n : − w T S b w s . t . : w T S w w = 1 => max J=w^TS_bw/w^TS_ww =>min :-w^TS_bw \space \space s.t.:w^TS_ww=1 =>maxJ=wTSbw/wTSww=>min:−wTSbw s.t.:wTSww=1
(w的模长不影响最后的结果,通过固定w模长,约束分母为1,进而使得分子可解)[变量约束为常数真的不会影响后续求解嘛?]
拉格朗日乘子法解等式约束优化问题
约束式变形加入优化式中
L
(
x
,
λ
)
=
f
(
x
)
+
∑
i
=
1
n
λ
i
h
i
(
x
)
L(x,\lambda) = f(x)+\sum_{i=1}^n \lambda_ih_i(x)
L(x,λ)=f(x)+i=1∑nλihi(x)
令x偏导数为0,求出可能的极值点,再一一验证。
广义特征值:设AB为n阶方阵,若存在数λ使得Ax=λBx存在非0解,则称λ是一个A相对于B的广义特征值,x是A相对于B的,属于lambda的特征向量。当B=E(单位阵)时,广义特征值退化为标准特征值。
广义瑞利商:A B为n阶厄米矩阵,B正定,(实数层面,厄米矩阵等价于转置矩阵)
R
(
x
)
=
x
H
A
x
/
x
H
B
x
(
x
!
=
0
)
R(x) = x^HAx/x^HBx(x!=0)
R(x)=xHAx/xHBx(x!=0)
R(x)为A相对于B的广义瑞利商。B=E时,广义瑞利商退化为瑞利商。
(不大理解,存疑,稍后补)