机器学习(西瓜书) 第3章 线性模型笔记

第3章 线性模型

线性模型(Linear Model)是最基本,最简单的模型,而这个世界是复杂,非线性的,我们可以基于线性模型构造非线性模型(Nonlinear Model)。
线 性 模 型 → 高 维 映 射 层 级 结 构 非 线 性 模 型 线性模型\xrightarrow[高维映射]{层级结构}非线性模型 线 线


3.1 基本形式

f ( x ) = w 1 x 1 + w 2 x 2 + … + w d x d + b = w T x + b w 和 b 确定,模型确定。 f(\boldsymbol{x})=w_{1} x_{1}+w_{2} x_{2}+\ldots+w_{d} x_{d}+b \\ =\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+\boldsymbol{b} \\ \boldsymbol{w}和\boldsymbol{b}\text{确定,模型确定。} f(x)=w1x1+w2x2++wdxd+b=wTx+bwb确定,模型确定。


3.2 广义线性模型

更一般地,考虑单调可微函数 g ( ⋅ ) , 令 y = g − 1 ( w T x + b ) \text{更一般地,考虑单调可微函数}g(\cdot),令 \\ y = g^{-1}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b\right) 更一般地,考虑单调可微函数g()y=g1(wTx+b)

其中函数 g ( ⋅ ) g(\cdot) g()称为联系函数。根据不同的 g ( ⋅ ) g(\cdot) g(),构造不同的非线性模型。


3.3 线性回归

f ( x i ) = w x i + b ,使得 f ( x i ) ≃ y i f\left(x_{i}\right)=w x_{i}+b\text{,使得}f\left(x_{i}\right) \simeq y_{i} f(xi)=wxi+b,使得f(xi)yi

样本由d个属性描述,我们试图获取样本的类别 y i y_{i} yi,这称为多元线性回归(Multivariate Linear Regression)。

衡量的方法为均方误差(Square Loss),对应欧氏距离( L 2 L_2 L2范式)。

采用最小二乘法(Least Square Method),求得 w 和 b \boldsymbol{w}和\boldsymbol{b} wb


$$ \hat{\boldsymbol{w}}^{*}=\left(\mathbf{X}^{\mathrm{T}} \mathbf{X}\right)^{-1} \mathbf{X}^{\mathrm{T}} \boldsymbol{y} \\ f\left(\hat{\boldsymbol{x}}_{i}\right)=\hat{\boldsymbol{x}}_{i}^{\mathrm{T}}\left(\mathbf{X}^{\mathrm{T}} \mathbf{X}\right)^{-1} \mathbf{X}^{\mathrm{T}} \boldsymbol{y} $$ 由于$\mathbf{X}^{\mathrm{T}} \mathbf{X}$通常不是满秩矩阵,可解出多个的$\hat{\boldsymbol{w}}^{*}$,引入**正则化**(Regularization)项,决定**学习算法的归纳偏好**。

3.3.1 对数线性回归

输出标记在指数尺度上变化

y = 1 1 + e − z = 1 1 + e − ( w T x + b ) ln ⁡ y 1 − y = w T x + b y=\frac{1}{1+e^{-z}}=\frac{1}{1+e^{-\left(w^{\mathrm{T}} x+b\right)}} \\ \ln \frac{y}{1-y}=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b y=1+ez1=1+e(wTx+b)1ln1yy=wTx+b
若将y视为样本x作为正例的可能性,则1-y是其反例的可能性,而二者比值 y 1 − y \frac{y}{1-y} 1yy称为几率(odds),取对数则得到对数几率 ln ⁡ y 1 − y \ln \frac{y}{1-y} ln1yy(log odds,logit)。

将y视为后验概率估计 p ( y = 1 ∣ x ) p(y=1 | x) p(y=1x),再通过极大似然法(Maximum Likelihood Method)
ℓ ( w , b ) = ∑ i = 1 m ln ⁡ p ( y i ∣ x i ; w , b ) \ell(\boldsymbol{w}, b)=\sum_{i=1}^{m} \ln p\left(y_{i} | \boldsymbol{x}_{i} ; \boldsymbol{w}, b\right) (w,b)=i=1mlnp(yixi;w,b)
这是个高阶可导连续凸函数,可以使用经典数值优化算法:梯度下降法(Gradient Descent Method),牛顿法(Newton Method)等求其最优解。


3.3.2 对数几率回归


3.3.3 线性判别分析


3.4 多分类学习

3.4.1 OvO


3.4.2 OvR


3.4.3 MvM

最常用MvM技术:纠错验证码(Error Correcting Output Codes, EOC)。


3.5 类别不平衡问题


3.6 阅读材料

3.6.1 稀疏表示


3.6.2 代价敏感


3.6.3 多标记学习


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值