【机器学习】线性模型 (Part 1)

HP-Patience

已于 2024-07-01 18:14:45 修改

阅读量882

点赞数 21

分类专栏：机器学习-西瓜书-学习笔记文章标签：机器学习人工智能学习

于 2024-05-19 01:44:17 首次发布

本文链接：https://blog.csdn.net/2301_82023330/article/details/139034202

版权

机器学习-西瓜书-学习笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文章内容

此文章为机器学习-西瓜书-🍉Book-3章-线性模型（Part 1），

本文主要内容为线性模型概述，以及介绍回归类任务所常用的一元线性回归、多元线性回归模型，并延申至广义线性回归模型。

所需数学知识

求偏导
矩阵求导
求逆矩阵

名词解释

1.序关系

有序：属性之间可进行相对比较（如大、中、小）
无序：属性之间不可进行相对比较（如南瓜、西瓜、冬瓜）

2.符号arg与s.t.

arg：即argument（参数），用于表示求出指定函数时的**参数取值**
	例如：
	arg min 就是使后面这个式子达到最小值时的 变量的取值
	arg max 就是使后面这个式子达到最大值时的 变量的取值
	
s.t.：即subject to，意思是受限于...，后面紧跟约束条件

3.闭式解

也叫做 解析解，
闭式解就是一些严格的公式,给出任意的自变量就可以求出其因变量,也就是问题的解
南瓜书中说闭式解是指可以通过具体的表达式解出待解参数

模型介绍

表示形式

对于拥有d个属性的示例 x，表示为： $\ldots ; x _ { d } )$
其中 $x_i$ 表示第i个属性的属性值
而我们将各属性的线性组合作为线性模型，表示为：
$\ldots + w _ { d } x _ { d } + b$

也可写成向量形式

$f ( x ) = w ^ { T } x + b$

其中 $w$ 和 $x$ 均为列向量，其中 $w$ 可以理解成为不同属性的偏好而赋予的权重
故线性模型具有很强的可解释性

模型优点

简单（模型表示、数学公式简单）
基本（通过引入层级结构或高维映射可以得到许多非线性模型）
可理解性好（通过权重可以看出对属性的偏好）

属性数值化

总结：离散属性的处理：若有“序”(order)，则连续化；否则，转化为 𝑘维向量

对于线性模型的求解，我们首先需要明确参数的输入和求解两个部分

我们知道模型的输入为各个示例 $x_i$ ，其中的 $x_i$ 由d个属性组成，
而我们用d个属性值表示一个具体的示例 $x_i$ 作为输入

这时我们会发现我们需要注意属性值的数据类型
于是这里我们把属性分为两类

连续属性
离散属性
- 有序的离散属性
- 无序的离散属性

对于有序的属性，我们用相对值表示属性值，如大、中、小分别用1，0.5，0来表示

对于无序的属性，我们用0/1表示属性值，我们记改属性有m种属性值，则一个属性值需要m维列向量进行表示。

比如对于属性瓜的类别，有西瓜，南瓜，冬瓜三种属性值，则表示为

$x _ { 1 } = ( 1 ; 0 ; 0 ) , x _ { 2 } = ( 0 ; 1 ; 0 ) , x _ { 3 } = ( 0 ; 0 ; 1 )$

这里表示示例 $x_1,x_2,x_3$ 分别为西瓜，南瓜，冬瓜

对于回归，二分类，多分类任务，我们给出不同的线性模型

在这里插入图片描述

回归任务

最小二乘法

在第二章中我们知道均方误差是回归任务的常见性能度量
均方误差本身也具有很好的几何意义，对于欧氏距离

定义：基于均方误差最小化进行模型求解，使得样本到直线的欧式距离之和最小

数学知识：涉及求偏导数

1.一元线性回归

1.假设方程

$f\left(x_{i}\right)=w x_{i}+b, 使得 f\left(x_{i}\right) \simeq y_{i}.$

2.均方误差最小化时的w和b的值

$\begin{aligned}\left(w^{*}, b^{*}\right) & =\underset{(w, b)}{\arg \min } \sum_{i=1}^{m}\left(f\left(x_{i}\right)-y_{i}\right)^{2} \\ & =\underset{(w, b)}{\arg \min } \sum_{i=1}^{m}\left(y_{i}-w x_{i}-b\right)^{2} .\end{aligned}$

3.均方误差对𝑤与𝑏求偏导

$\begin{array}{l}\frac{\partial E_{(w, b)}}{\partial w}=2\left(w \sum_{i=1}^{m} x_{i}^{2}-\sum_{i=1}^{m}\left(y_{i}-b\right) x_{i}\right), \\ \frac{\partial E_{(w, b)}}{\partial b}=2\left(m b-\sum_{i=1}^{m}\left(y_{i}-w x_{i}\right)\right),\end{array}$

此处 $E_{(w, b)}$ 是是关于w和b的凸函数
注意：此处凸函数定义与数学分析中相同，与高等数学中相反

4.令偏导为0，得到闭式解，解得w和b

$\begin{array}{c}w=\frac{\sum_{i=1}^{m} y_{i}\left(x_{i}-\bar{x}\right)}{\sum_{i=1}^{m} x_{i}^{2}-\frac{1}{m}\left(\sum_{i=1}^{m} x_{i}\right)^{2}}, \\ b=\frac{1}{m} \sum_{i=1}^{m}\left(y_{i}-w x_{i}\right)\end{array}$

2.多元线性回归

额外数学知识:

矩阵求导

基于本人数学系所教授的高等代数中无此内容，故认为需要额外补充学习

详见西瓜书附录P400 A.2 导数

1.假设方程

$f\left(\boldsymbol{x}_{i}\right)=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b, 使得 f\left(\boldsymbol{x}_{i}\right) \simeq y_{i},$

2.为便于讨论，把w和b吸收入向量形式，数据集表示为

$\mathbf{X}=\left(\begin{array}{ccccc}x_{11} & x_{12} & \ldots & x_{1 d} & 1 \\ x_{21} & x_{22} & \ldots & x_{2 d} & 1 \\ \vdots & \vdots & \ddots & \vdots & \vdots \\ x_{m 1} & x_{m 2} & \ldots & x_{m d} & 1\end{array}\right)=\left(\begin{array}{cc}\boldsymbol{x}_{1}^{\mathrm{T}} & 1 \\ \boldsymbol{x}_{2}^{\mathrm{T}} & 1 \\ \vdots & \vdots \\ \boldsymbol{x}_{m}^{\mathrm{T}} & 1\end{array}\right)$

示例中的属性值为列向量，同时将标记写成向量形式 $y=(y_{1};y_{2};\ldots;y_{m})$

注意：此处将 $f\left(\boldsymbol{x}_{i}\right)=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b$ 中的 $b$ 拆成b*1的形式，用 $x$ 吸收 $1$ ，用 $w$ 吸收 $b$ 变成 $\hat{\boldsymbol{w}}$

在这里插入图片描述

3.解得w

$\hat{\boldsymbol{w}}^{*}=\left(\mathbf{X}^{\mathrm{T}} \mathbf{X}\right)^{-1} \mathbf{X}^{\mathrm{T}} \boldsymbol{y}$

4.最终解得模型为：

$f\left(\hat{\boldsymbol{x}}_{i}\right)=\hat{\boldsymbol{x}}_{i}^{\mathrm{T}}\left(\mathbf{X}^{\mathrm{T}} \mathbf{X}\right)^{-1} \mathbf{X}^{\mathrm{T}} \boldsymbol{y}.$