西瓜书+南瓜书学习Task2——第三章3.1-3.4

li_zi_gao

已于 2023-09-24 16:09:22 修改

阅读量108

点赞数

分类专栏：机器学习文章标签：学习机器学习人工智能

于 2023-09-18 20:14:16 首次发布

本文链接：https://blog.csdn.net/li_zi_gao/article/details/132890743

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

3.0 序言

（1）机器学习三要素

1.模型：反映了输入数据和输出数据之间的关系（如线性的，非线性的），通常根据具体问题的经验和统计数据的分布，来假设模型。

2.策略：根据某个特定的评价标准，确定选取最优模型的策略。（通常会产出一个“损失函数”）（如使用均方误差作为线性回归的标准）

3.算法：求解损失函数，确定最优模型。（如通过最小二乘法和极大似然估计法求解ω和b的值）

（2）线性模型

基本形式： $f(x)=w_{1}x_{1}+w_{2}x_{2}+...+w_{d}x_{d}+b$

向量形式： $f(\mathbf{x})=\mathbf{\mathbf{w}^{\top }x}+b$

（3）序关系（针对于离散属性）

若属性值之间具有“序”的关系，则需要将离散数据连续化。如：二维属性胖瘦，都是衡量人体型的指标，有一定的强弱程度，则可将“胖”“瘦”转化为{1.0, 0.0}。

若属性之间不存在对应的“序”关系，则用k维向量来表示k个属性。如：黄色，蓝色，紫色，它们之间没有谁强谁弱的程度，则它们的取值可分别化为(1, 0, 0)，(0, 1, 0)，(0, 0, 1)。

优点：形式简单，易于建模；有很好的“可解释性”，可通过每个维度前的系数来确定属性的重要程度。（若求得模型为： $f\left ( x \right )=0.15x_{1}+0.5x_{2}+0.35x_{3}+3$ 中，则 $x_{2}$ 所代表的属性更加重要）

3.1 一元线性回归

（1）模型：试图学得 $f(x_{i})=wx_{i}+b$ ，使得 $f(x_{i})\simeq y_{i}$

（2）策略：最小二乘法——使得均方误差最小化，让所有样本到直线模型上的欧氏距离最小，即：

即使 $E_{(w,b)}= \sum_{i=1}^{m}(y_{i}-f(x_{i}))^{2}$ 最小。

*拓展：使用概率论中极大似然估计法求 $w$ 和 $b$ 的最小值：

1.假设模型 $y=wx+b+\epsilon$ ， $\epsilon$ 为不受控制的随机误差，依据经验设其服从 $\epsilon \sim N(0,\sigma ^{2})$ 的正态分布。

2. $\epsilon$ 的概率密度函数为：

3.将 $\epsilon$ 用 $y-(wx+b)$ 替换得到：

4.求解极大似然函数 $L(w,b)$ ：

5.由于 $m,\sigma$ 都是常数，若使 $lnL(w,b)$ 最大，则等价于使 $\sum_{i=1}^{m}(y_{i}-wx_{i}-b)^{2}$ 最小。

最终，该方法与（2）中最小二乘法推出的损失函数殊途同归。

除微积分，线代，概率论外，所需补充的一些数学知识：

1）凸函数 $x^{*}$

定义：若在区间 [a，b] 上，函数 f 在此区间上的两点 x1、x2，满足 f( (x1 + x2) / 2 ) <= ( f(x1) + f(x2) ) / 2，则称 f 为区间 [a，b] 上的凸函数。（如二次函数 $y=x^{2}$ ）

判定方法：若某个函数的海塞矩阵是半正定的，则其为凸函数。

性质：若 $f:R^{n}\rightarrow R$ 是凸函数，且 $f(\boldsymbol{x})$ 一阶连续可微，则 $x^{*}$ 是全局解 $\Leftrightarrow$ $\triangledown f(x^{*})=0$

$\triangledown f(x)$ ：即梯度，指多元函数的一阶导数。

2）海塞矩阵

定义：设n元函数 $f(\mathit{\textit{}x})$ 对自变量 $\boldsymbol{x\boldsymbol{\mathit{}}}$ = $(x_{1},x_{2},...,x_{n})\top$ 的各分量 $x_{i}$ 的二阶偏导数 $\frac{\partial^2 f(x)}{\partial x_{i}\partial x_{j}}$ 都存在，则称f(x)在 $\boldsymbol{x\boldsymbol{\mathit{}}}$ 处二阶可导，并称下图所示矩阵为该函数的海塞矩阵。

性质：若 $f(\boldsymbol{x})$ 二阶可微，且其海塞矩阵是半正定的，则其在定义域上为凸函数。

（半正定矩阵的判定：该矩阵为实对称矩阵，且顺序主子式均为非负。）

（3）算法：

求解最小值的思路：

1：由于求解 $w$ 和 $b$ 的问题本质上属于多元函数求最值（点）的问题，我们需证明该函数属于凸函数。

2：用凸函数求最值的方法解出其最小值。

证明过程：（过程可理解，最重要的是要记住结果）

（1）分别求二阶偏导：

（2）列出其海塞矩阵，证明一二阶顺序主子式为非负：

（3）证明得该函数为凸函数，令其一阶偏导分别等于0，求得 $w$ 和 $b$ ：

最终得到最重要的结论： $w$ 和 $b$ 最优解的闭式解：

3.2 多元线性回归

（1）模型：样本由d个属性描述，试图学得 $f(\boldsymbol{x}_{i})=\boldsymbol{w^{\top } x_{i}}+b$ ，使得 $f\boldsymbol{(x}_{i})\simeq y_{i}$ 。

（2）最小二乘法步骤：

1. 为了消去常数项 $b$ ，将 $\boldsymbol{w}$ 和 $b$ 组合成 $\boldsymbol{\widehat{w}}$ （拓展向量维度）：

2. 使用最小二乘法得到：

整理化简得：

3. 用同样的思路求解 $\boldsymbol{\widehat{w}}$ （判别其海塞矩阵是否有半正定性，利用凸函数性质求解）。关于矩阵如何求导，可参考博文：

矩阵的求导_矩阵求导_意念回复的博客-CSDN博客，最终可得：

令上式为0得：

此处我们假设 $\boldsymbol{X^{\top }X}$ 是满秩矩阵或正定矩阵。（否则无法得出凸函数的最小值证明）。

若 $\boldsymbol{X^{\top }X}$ 不满足以上性质，则可解出多个 $\boldsymbol{\widehat{w}}$ ，此时由学习算法的归纳偏好决定输出哪个解。

最终学得得多元线性回归模型为：

3.3 对数几率回归

（1）模型：线性模型，输出值的范围为[0, 1]，近似阶跃的单调可微函数

1. 回归与分类的区别：回归预测具体的数值，一般在一段范围之内；分类输出的结果是离散的，是物体所属的类别。

针对分类任务，由于线性回归模型主要针对的是连续型y值，通常没有办法借助该类模型解决问题。但只要我们找一个单调可微的映射函数，便可使线性回归得出的值化为分类问题的值。

如在线性回归模型 $z=\boldsymbol{w^{T}x}+b$ 中， $z$ 是实值，我们需要将其转化为{0, 1}。形如 $y=\frac{1}{1+e^{-z}}$ 的对数几率函数便是一个常用的替代函数（如下图黑线所示）。

2. 优点：输出值在 $z=0$ 附近变化很陡，可近似成{0, 1}分类；连续可微。

将 $z=\boldsymbol{w^{T}x}+b$ 代入上式得：

并可将其变化为：

这里要解释一个概念：对数几率——若将y视作样本 $\boldsymbol{x}$ 为正例的可能性，则1-y是其为负例的可能性，二者之比 $\frac{y}{1-y}$ 称为“几率”，对“几率”取对数即为“对数几率”。

（2）策略：极大似然估计法，信息论方法

确定 $\boldsymbol{w}$ 和 $b$ ：

1. 将离散型随机变量y取值为1和0的概率分别建模为：

同多元线性回归，为了便于讨论，令 $\boldsymbol{\beta }=(\boldsymbol{w};b)$ ， $\widehat{\boldsymbol{x}}=(\boldsymbol{x};1)$ ，上式可简写为：

推得其概率质量函数为：

2. 写出似然函数：

由于损失函数经常以最小化为优化目标，所以可将最大化 $l(\boldsymbol{\beta })$ 等价为最小化 $-l(\boldsymbol{\beta })$ ，即

（3）算法：梯度下降法，牛顿法

上式是关于 $\boldsymbol{\beta }$ 的高阶可导连续凸函数，根据凸优化理论，或牛顿法，梯度下降法等可求得其最优解：

3.4 线性判别分析

（1）一些定义：数据集 $D=\left \{ \left ( x_{i},y_{i} \right ) \right \}_{i=1}^{m} ,y_{i}\in \left \{ 0,1 \right \}$ ， $X_{i}$ ， $\mu _{i}$ ， $\sum _{i}$ 分别表示第 $i\in \left \{ 0,1 \right \}$ 类示例的集合，均值向量，协方差矩阵。