文章目录
第3章 线性模型
线性模型(Linear Model)是最基本,最简单的模型,而这个世界是复杂,非线性的,我们可以基于线性模型构造非线性模型(Nonlinear Model)。
线
性
模
型
→
高
维
映
射
层
级
结
构
非
线
性
模
型
线性模型\xrightarrow[高维映射]{层级结构}非线性模型
线性模型层级结构高维映射非线性模型
3.1 基本形式
f ( x ) = w 1 x 1 + w 2 x 2 + … + w d x d + b = w T x + b w 和 b 确定,模型确定。 f(\boldsymbol{x})=w_{1} x_{1}+w_{2} x_{2}+\ldots+w_{d} x_{d}+b \\ =\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+\boldsymbol{b} \\ \boldsymbol{w}和\boldsymbol{b}\text{确定,模型确定。} f(x)=w1x1+w2x2+…+wdxd+b=wTx+bw和b确定,模型确定。
3.2 广义线性模型
更一般地,考虑单调可微函数 g ( ⋅ ) , 令 y = g − 1 ( w T x + b ) \text{更一般地,考虑单调可微函数}g(\cdot),令 \\ y = g^{-1}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b\right) 更一般地,考虑单调可微函数g(⋅),令y=g−1(wTx+b)
其中函数 g ( ⋅ ) g(\cdot) g(⋅)称为联系函数。根据不同的 g ( ⋅ ) g(\cdot) g(⋅),构造不同的非线性模型。
3.3 线性回归
f ( x i ) = w x i + b ,使得 f ( x i ) ≃ y i f\left(x_{i}\right)=w x_{i}+b\text{,使得}f\left(x_{i}\right) \simeq y_{i} f(xi)=wxi+b,使得f(xi)≃yi
样本由d个属性描述,我们试图获取样本的类别 y i y_{i} yi,这称为多元线性回归(Multivariate Linear Regression)。
衡量的方法为均方误差(Square Loss),对应欧氏距离( L 2 L_2 L2范式)。
采用最小二乘法(Least Square Method),求得 w 和 b \boldsymbol{w}和\boldsymbol{b} w和b。
$$ \hat{\boldsymbol{w}}^{*}=\left(\mathbf{X}^{\mathrm{T}} \mathbf{X}\right)^{-1} \mathbf{X}^{\mathrm{T}} \boldsymbol{y} \\ f\left(\hat{\boldsymbol{x}}_{i}\right)=\hat{\boldsymbol{x}}_{i}^{\mathrm{T}}\left(\mathbf{X}^{\mathrm{T}} \mathbf{X}\right)^{-1} \mathbf{X}^{\mathrm{T}} \boldsymbol{y} $$ 由于$\mathbf{X}^{\mathrm{T}} \mathbf{X}$通常不是满秩矩阵,可解出多个的$\hat{\boldsymbol{w}}^{*}$,引入**正则化**(Regularization)项,决定**学习算法的归纳偏好**。
3.3.1 对数线性回归
输出标记在指数尺度上变化
y
=
1
1
+
e
−
z
=
1
1
+
e
−
(
w
T
x
+
b
)
ln
y
1
−
y
=
w
T
x
+
b
y=\frac{1}{1+e^{-z}}=\frac{1}{1+e^{-\left(w^{\mathrm{T}} x+b\right)}} \\ \ln \frac{y}{1-y}=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b
y=1+e−z1=1+e−(wTx+b)1ln1−yy=wTx+b
若将y视为样本x作为正例的可能性,则1-y是其反例的可能性,而二者比值
y
1
−
y
\frac{y}{1-y}
1−yy称为几率(odds),取对数则得到对数几率
ln
y
1
−
y
\ln \frac{y}{1-y}
ln1−yy(log odds,logit)。
将y视为后验概率估计
p
(
y
=
1
∣
x
)
p(y=1 | x)
p(y=1∣x),再通过极大似然法(Maximum Likelihood Method)
ℓ
(
w
,
b
)
=
∑
i
=
1
m
ln
p
(
y
i
∣
x
i
;
w
,
b
)
\ell(\boldsymbol{w}, b)=\sum_{i=1}^{m} \ln p\left(y_{i} | \boldsymbol{x}_{i} ; \boldsymbol{w}, b\right)
ℓ(w,b)=i=1∑mlnp(yi∣xi;w,b)
这是个高阶可导连续凸函数,可以使用经典数值优化算法:梯度下降法(Gradient Descent Method),牛顿法(Newton Method)等求其最优解。
3.3.2 对数几率回归
3.3.3 线性判别分析
3.4 多分类学习
3.4.1 OvO
3.4.2 OvR
3.4.3 MvM
最常用MvM技术:纠错验证码(Error Correcting Output Codes, EOC)。