《机器学习》学习笔记(第3章 线性模型)

这篇笔记探讨了机器学习中的线性模型,包括线性回归的最小二乘估计和广义线性模型在分类任务中的应用。线性模型通过属性的线性组合进行预测,而在分类问题中,如二分类,会使用Sigmoid函数结合极大似然估计来确定模型参数。此外,线性判别分析(LDA)也被提及作为另一种分类方法。
摘要由CSDN通过智能技术生成

《机器学习》学习笔记(第3章 线性模型)

参考资料:周志华《机器学习》以及Datawhale 吃瓜教程

机器学习三要素

首先回顾一下直播课中概括的机器学习三要素:

  1. 模型:根据具体问题,确定假设空间
  2. 策略:根据评价标准,确定求解最优模型的策略(通常会产生一个“损失函数”)
  3. 算法:求解损失函数,确定最优模型

线性模型与回归学习

线性模型试图学得一个通过属性的线性组合进行预测的函数,其基本形式为:
f ( x ) = w T x + b f(\bold{x})=\bold{w}^{T}\bold{x}+b f(x)=wTx+b

线性模型形式简单,具有良好的可解释性。我们通过最小化均方误差来确定参数 w \bold{w} w b b b
( w ∗ , b ∗ ) = arg ⁡ min ⁡ ( w , b ) ∑ i = 1 m ( y i − f ( x i ) ) 2 (\bold{w}^*,b^*)=\arg\min_{(w,b)}\sum_{i=1}^m(y_i-f(\bold{x}_i))^2 (w,b)=arg(w,b)mini=1m(yif(xi))2
均方误差可以视为样本真实值与预测值的欧氏距离平方和。上述求解参数的过程称为线性回归模型的最小二乘参数估计。事实上,若我们引入误差项 ϵ i = y i − f ( x i ) \epsilon_i=y_i-f(\bold{x_i}) ϵi=yif(xi),并且 ϵ i ∼ N ( 0 , σ 2 ) \epsilon_i\sim N(0,\sigma^2) ϵiN(0,σ2),可以证明此时最小二乘估计与极大似然估计等价。

若记 w ^ = ( w ; b ) \hat{\bold{w}}=(\bold{w};b) w^=(w;b),则最优参数 w ^ ∗ \hat{\bold{w}}^* w^可表示为矩阵形式:
w ^ ∗ = ( X T X ) − 1 X T y \hat{\bold{w}}^*=(\bold{X}^\text{T}\bold{X})^{-1}\bold{X}^\text{T}y w^=(XTX)1XTy
上式成立要求 X T X \bold{X}^\text{T}\bold{X} XTX满秩。若样本数少于变量数(矩阵 X \bold{X} X的行数少于列数),那么 w ^ ∗ \hat{\bold{w}}^* w^存在多个解。此时解的选取由学习算法的归纳偏好决定,常见的做法是引入正则化项。

广义线性模型与分类学习

除了回归学习之外,线性模型还可用于分类任务。此时需用到广义线性模型,即寻找一个单调可微函数将分类任务的真实标记与线性回归模型的预测值联系起来。以二分类问题为例,我们需要找到一个Sigmoid函数(形似"S"的函数)来近似最理想的单位阶跃函数:

image-20210822165229137

对数几率函数是一种常用的Sigmoid函数:
y = 1 1 + e ( w T x + b ) y=\frac{1}{1+e^{(\bold{w}^{T}\bold{x}+b)}} y=1+e(wTx+b)1
此时,我们可以通过极大似然法来估计参数 w \bold{w} w b b b。由于我们无法确定封闭解,所以需要使用数值优化算法(例如梯度下降法和牛顿法)来求得最优解。

线性判别分析

除了广义线性模型外,我们还可以使用线性判别分析(LDA)来进行分类学习。

以二分类学习为例,LDA的核心思想是:给定训练样例集 D D D,设法将样例投影到一条直线 w w w上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。

image-20210822171425804

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值