机器学习——3.线性模型

最新推荐文章于 2023-09-02 16:01:23 发布

大墅哥哥

最新推荐文章于 2023-09-02 16:01:23 发布

阅读量635

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_43532000/article/details/119855499

版权

机器学习专栏收录该内容

13 篇文章 3 订阅

订阅专栏

文章目录

1. 基本形式

给定 $d$ 维的数据集 $\mathcal{X} = (x_1,x_2 ... x_d)$ ，其中 $x_i$ 是 $\mathcal{X}$ 在第 i个特征上的取值，线性模型(Linear model) 试图学得一个通过特征的线性组合来进行预测的函数，即：
$f(x) = w_1x_1 + w_2x_2 + ... + w_dx_d + b$

可用向量形式示：
$f(x) = w^Tx + b$
其中 $w = (w_1;w_2;...;w_d)$ ,学得 $w, b$ 后即确定了模型。

线性模型简单可解释性强
可在线性模型基础上加入一些结构变成非线性模型，表达更强

2. 线性回归

2.1 线性回归

给定数据集 ${(\mathcal{X}_1,y_1),(\mathcal{X}_2,y_2),...(\mathcal{X}_m,y_m)}$ ,其中 $\mathcal{X} =(x_{i1};x_{i2};...x_{id})$ , “线性回归”（linear regression) 试图学得一个线性模型以尽可能准确地预测实值输出的标记。

将数据输入到模型时，要求输入模型是数值，所以对离散数值通常我们也有如下的做法：

离散特征存在“序”关系，直接转换为连续值，例如(“低”，“中”，“高”)转化为(1,2,3)
离散特征不存在“序”关系，通过一些编码的方式转换位数值，例如(“西瓜”，“南瓜”，“黄瓜”)使用OneHot编码转化为([1,0,0],[0,1,0],[0,0,1])

模型将试图学得
$f(x_i) = wx_i + b, f(x_i) \simeq y_i$

2.2 最小化均方误差

如何学得对应的 $w, b$ 呢，通常回归任务可以通过最小化均方误差的方式。
$(w^*,b^*) = argmin_{(w,b)} \sum_{i=1}^m(f(x_i) - y_i)^2 \\ = argmin_{(w,b)} \sum_{i=1}^m(y_i - wx_i -b)^2$

2.3 凸函数求最值问题

上述的最小化均方误差求解 $w, b$ 本质上是对多元函数求最值的问题，即是凸函数求最值点的问题。所以我们以下的步骤是：

证明该均方误差 $\sum_{i=1}^m(y_i - wx_i -b)^2$ 为一个凸函数
利用凸函数求最值的方法解得参数 $w, b$

2.3.1 凸函数

定理：设 $D\subset R^n$ 是非空开凸集， $\mathcal{f} :D \subset R^n\rightarrow R$ ,且 $f (x)$ 在 $D$ 上二价连续可微，如果 $f (x)$ 的Hessian矩阵在 $D$ 上是半正定的，则 $f (x)$ 是 $D$ 上的凸函数。

以上，所以只需证明均方误差 $\sum_{i=1}^m(y_i - wx_i -b)^2$ 的Hessian矩阵
$\left[ \begin{matrix} \frac{\partial ^2E_{(w,b)}}{\partial w^2} & \frac{\partial ^2E_{(w,b)}}{\partial w \partial b} \\ \frac{\partial ^2E_{(w,b)}}{\partial b \partial w}& \frac{\partial ^2E_{(w,b)}}{\partial b^2} \end{matrix} \right] = \left[ \begin{matrix} 2\sum_{i=1}^{m} x_i^2 & 2\sum_{i=1}^{m} x_i \\ 2\sum_{i=1}^{m} x_i & 2m \end{matrix} \right]$ 是一个半正定矩阵，即可得 $\sum_{i=1}^m(y_i - wx_i -b)^2$ 是一个关于 $w, b$ 的凸函数

半正定矩阵判定定理之一：若是对称矩阵的所有顺序主子式均为非负，则该矩阵为半正定矩阵

可证上述HEssian矩阵所有顺序主子式为非负(证明略)

2.4 求解模型参数

求解 $w, b$ 使 $\sum_{i=1}^m(y_i - wx_i -b)^2$ 最小化的过程，称为线性回归模型的最小二乘“参数估计(parameter estimation)”。我们可将 $E_{(w,b)}$ 分别对 $w, b$ 求导
$\frac{\partial E_{(w,b)}}{\partial w} = \frac{\partial}{\partial w}[\sum_{i=1}^{m}(y_i - wx_i - b)^2] \\ = \sum_{i=1}^m \frac{\partial}{\partial w}[(y_i - wx_i -b)^2] \\ = \sum_{i=1}^m [2 * (y_i - wx_i - b) * (-x_i)] \\ =\sum_{i=1}^m[2 * (wx_i^2 - y_ix_i +bx_i)] \\ =2 *(w\sum_{i=1}^m x_i^2 -\sum_{i=1}^m y_ix_i + b\sum_{i=1}^m x_i) \\ = 2(w\sum_{i=1}^m x_i^2 - \sum_{i=1}^m (y_i -b)x_i)$

$\frac{\partial E_{(w,b)}}{\partial b} = \frac{\partial}{\partial b}[\sum_{i=1}^{m}(y_i - wx_i - b)^2] \\ = \sum_{i=1}^m \frac{\partial}{\partial b}[(y_i - wx_i -b)^2] \\ = \sum_{i=1}^m [2 * (y_i - wx_i - b) * (-1)] \\ =\sum_{i=1}^m[2 * (b - y_i +wx_i )] \\ =2 *(\sum_{i=1}^m b -\sum_{i=1}^m y_i+ \sum_{i=1}^m wx_i) \\ = 2(mb -\sum_{i=1}^m (y - wx_i))$

令 $\frac {\partial E_{(w,b)}}{\partial w} = 0$ ,即：

$\sum_{i =1}^m x_i^2 - \sum_{i=1}^m(y_i -b)x_i \\ w\sum_{i=1}^m x_i^2 = \sum_{i=1}^m y_ix_i - \sum_{i=1}^m bx_i$

令 $\frac {\partial E_{(w,b)}}{\partial b} = 0$ ,可得：
$\frac{1}{m}\sum_{i=1}^m(y_i - wx_i)$
因为 $\frac {1}{m}\sum_{i=1}^m y_i = \overline y, \frac{1}{m} \sum_{i=1}^{m} x_i = \overline x$ , 即有 $\overline y - w\overline x$

代入b代入 $\frac {\partial E_{(w,b)}}{\partial w} = 0$ 中，得：
$w\sum_{i=1}^m x_i^2 = \sum_{i=1}^m y_ix_i - \sum_{i=1}^m (\overline y - w\overline x) x_i \\ w\sum_{i=1}^m x_i^2 = \sum_{i=1}^m y_ix_i - \overline y \sum_{i=1}^m x_i + w\overline x \sum_{i=1}^m x_i \\ w =\frac{\sum_{i=1}^m y_ix_i - \overline y \sum_{i=1}^m x_i}{\sum_{i=1}^m x_i^2 -\overline x \sum_{i=1}^m x_i }$
即
$=\frac{\sum_{i=1}^m y_i(x_i - \overline x)}{\sum_{i=1}^m x_i^2 - \frac{1}{m} (\sum_{i=1}^m x_i)^2 }$

2.5 广义线性模型

当我们输出标记的对数作为线性模型逼近的目标:
$ln y = w^Tx +b$
上式即是 “对数线性回归"(log-linear regression)，实际上是让 $e^{w^Tx +b}$ 逼近y,但 $ln y = w^Tx +b$ 仍是线性回归。

一般地，考虑单调可微函数 $g (.)$ ,令
$y = g^{-1}(w^Tx +b)$
    这样得到的模型称为 “广义线性模型”(generalized linear model) 。其中函数 $g (.)$ 称为 “联系函数”(link function)

3. 对数几率回归

上述讨论了用线性模型进行了回归任务的学习，加若要做分类任务，则可以利用广义线性回归的理论，找到一个联系函数将线性模型和预测目标联系起来。

假设在二分类任务中，输出标记即 $\mathcal{y} \in \{0,1\}$ ,我们则需要利用一个联系函数将 $z = w^Tx +b$ 与 $y$ 联系起来，即将 $z$ 值转换位0/1值。

    我们找到将一个联系函数, $\frac{1}{1+e^{-z}}$ ,代入 $z$ 则有：
$\frac{1}{1+e^{-(w^Tx +b)}} \\ y +ye^{-(w^Tx +b)}= 1\\ e^{-(w^Tx +b)} = \frac{1-y}{y} \\ -(w^Tx+b) = ln \frac{1-y}{y} \\ ln \frac{y}{1-y} = w^Tx +b$
    其中 $\frac{y}{1-y}$ 称为几率，则 $\frac{y}{1-y}$ 称之为对数几率。上述的模型用线性回归模型的预测结果去逼近真实标记的对数几率，称之为 “对数几率回归”(logistic regression)

4. 线性判别分析(Linear Discriminant Analysis，LDA)

4.1 基本思想

假设给定一个二维的，二类别任务数据集，LDA则设法将样本投影到一条直线上，使得同类的样本的投影点尽可能接近，反之尽可能远离。则新样本分类时，则对其投影到直线再根据区域对其进行分类。
在这里插入图片描述

4.2 原理

给定数据集 ${(x_i,y_i)}_{i=1}^m,y_i \in \{0,1\}$
$\mathcal{X}_i,\mu_i,\sum_i$ 分别表示类别 $\in \{0,1\}$ 的数据集、均值向量，协方差矩阵
则两类样本的中心在直线上的投影分别为 $w^T\mu_0$ 和 $w^T\mu_1$
投影后样本的协方差为 $w^T\sum_0w,w^T\sum_1w$

为了将同类样本尽可能接近，异类样本尽可能远离。即两类样本的协方差和 $w^T\sum_0w+w^T\sum_1w$ 尽量小，两个类中的中心 $||w^T\mu_0 - w^T\mu_1||$ 尽可能远离。
则得到最大化目标：
$\frac{||w^T\mu_0 - w^T\mu_1||_2^2}{w^T\sum_0 w + w^T\sum_1w} \\ =\frac{w^T(\mu_0 - \mu_1)(\mu_0 -\mu_1)^Tw}{w^T(\sum_0 + \sum_1)w} = \frac{w^TS_bw}{w^TS_ww }$
其中记 $S_b =(\mu_0 - \mu_1)(\mu_0 - \mu_1)^T,S_w =\sum_0 + \sum_1$

5. 多分类学习

考虑 $N$ 个类别 $C_1,C_2,...C_N$ ,多分类的基本思路是“拆解法”，即将多分类任务拆为若干个二分类的任务求解。

5.1 “一对一”(One vs One,OvO)

OvO将 $N$ 个类别的两两配对，从而产生 $N (N - 1) / 2$ 个分类任务。例如，OvO将为区分类别 $C_i$ 和 $C_j$ 训练一个分类器，该分类器将同时提交给所有分类器，于是我们将得到 $N (N - 1) / 2$ 个分类节气，最终结果可通过投票产生。

5.1 “一对其余”(One vs Rest,OvR)

OvR则是每次将一类的样例作为正例，所有其他类别的样本作为反例来训练 $N$ 个分类。

5.1 “多对多”(Many vs Many,MvM)

MvM是每次将若干个类作为正类，若干个类作为反类。

6. 参考资料

1.《机器学习》周志华著. 机器学习, 北京: 清华大学出版社
2.《统计学习方法》李航著. 北京: 清华大学出版社
3. 南瓜书
4. datawhale讲解

大墅哥哥

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习——3.线性模型

文章目录1. 基本形式2. 线性回归2.1 线性回归2.2 最小化均方误差2.3 凸函数求最值问题2.3.1 凸函数2.4 求解模型参数2.5 广义线性模型3. 对数几率回归4. 线性判别分析(Linear Discriminant Analysis，LDA)4.1 基本思想4.2 原理5. 多分类学习5.1 “一对一”(One vs One,OvO)5.1 “一对其余”(One vs Rest,OvR)5.1 “多对多”(Many vs Many,MvM)1. 基本形式  &nbs
复制链接

扫一扫

专栏目录