Machine Learning——Linear Model

最新推荐文章于 2021-12-21 17:09:39 发布

哎呦哥哥、

最新推荐文章于 2021-12-21 17:09:39 发布

阅读量716

点赞数

分类专栏：《西瓜书》学习笔记文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jm863936705/article/details/107184072

版权

《西瓜书》学习笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本系列博客是我学习周志华的《机器学习（西瓜书）》的自学笔记。
我是零基础学习，因此所写只是书上的知识，肯定不全面，以后随着学习的深入，慢慢补充吧。

基本形式

给定由 $d$ 个属性描述的示例 $x=(x_1;x_2;\cdots;x_d)$ ，其中 $x_i$ 是 $x$ 在第 $i$ 个属性上的取值，线性模型 $(l i n e a r m o d e l)$ 试图学得一个通过属性的线性组合来进行预测的函数，即 $f(x)=w_1x_1+w_2x_2+\cdots+w_dx_d+b,$ 一般用向量形式写成 $f(x)=w^Tx+b,$ 其中 $w=(w_1;w_2;\cdots;w_d)$ ，即为 $x$ 的权重， $w$ 和 $b$ 学得之后，模型就得以确定.

Linear Regression（线性回归）

给定数据集 $D=\lbrace{(x_1,y_1),(x_2,y_2),\cdots,(x_m,y_m)}\rbrace$ ，其中 $x_i=(x_{i1};x_{i2};\cdots;x_{id}),y_i \in R.$
线性回归（linear regression）试图学得一个线性模型以尽可能准确地预测实值输出标记。
$x_i$ 即为属性，对于离散属性：
- 若属性值之间存在“序”（order）关系，可以通过连续化将其转化为连续值。比如“高”、“矮”转化为{1.0，0.0}；“高”、“中”、“低”可以转化为{1.0，0.5，0.0}.
- 若属性间不存在序关系，假定有 $k$ 个属性值，则通常转化为 $k$ 维向量。比如“西瓜”、“南瓜”、“黄瓜”转化为(0,0,1)，(0,1,0)，(1,0,0).
线性回归试图学得 $f(x_i)=wx_i+b,使得f(x_i)\simeq y_i.$
为了确定 $w$ 和 $b$ ，我们引入损失函数（Loss Function） 的概念。损失函数有很多种，在回归任务中最常用均方误差（也称为平方损失square loss） 这一性能度量。
台湾大学的李宏毅老师称之为损失函数（Loss Function），斯坦福的吴恩达老师称之为代价函数（Cost Function），我的理解就是，所谓的损失函数指的就是模型的误差，让误差最小，就是让损失函数取最小值。
因此，我们需要让均方误差最小化，即 $(w^*,b^*)=\argmin_{(w,b)}\sum_{i=1}^m(f(x_i)-y_i)^2=\argmin_{(w,b)}\sum_{i=1}^m(y_i-wx_i-b)^2.$
均方误差对应了常用的欧几里得距离或简称欧氏距离（Euclidean distance）。
基于均方误差最小化来进行模型求解的方法称为最小二乘法（least square method）。
在线性回归中，最小二乘法就是试图找到一条直线，使所有样本到直线上的欧氏距离之和最小。
求解 $w$ 和 $b$ 使 $E_{(w,b)}=\sum_{i=1}^m(y_i-wx_i-b)^2$ 最小化的过程，称为线性回归模型的最小二乘“参数估计”（parameter estimation）.
我们将 $E_{(w,b)}$ 分别对 $w$ 和 $b$ 求导，得到 $\frac {\partial E_{(w,b)}}{\partial w}=2\bigg( w\sum_{i=1}^m x_i^2-\sum_{i=1}^m(y_i-b)x_i \bigg),$ $\frac {\partial E_{(w,b)}}{\partial b}=2\bigg( mb-\sum_{i=1}^m(y_i-wx_i) \bigg),$ 然后令上述两式为零，可得 $w$ 和 $b$ 最优解的闭式(closed-form)解： $w=\frac {\sum_{i=1}^m y_i(x_i-\bar x)}{\sum_{i=1}^m x_i^2-\frac {1}{m}\bigg( \sum_{i=1}^m x_i \bigg)^2},$ $b=\frac {1}{m} \sum_{i=1}^m(y_i-wx_i),$ 其中 $\bar x=\frac {1}{m} \sum_{i=1}^m x_i$ 为 $x$ 的均值.
当样本由 $d$ 个属性描述，此时我们试图学得 $f(x_i)=w^Tx_i+b,使得f(x_i)\simeq y_i,$ 这称为多元线性回归（multivariate linear regression）.此时的“多元”指的是样本属性。
对于多元线性回归，我们把数据集 $D$ 表示为一个 $m \times (d + 1)$ 大小的矩阵 $X$ ，其中每行对应一个示例，该行前 $d$ 个元素对应于示例的 $d$ 个属性值，最后一个元素恒置为1，即 $X=\begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1d} & 1 \\ x_{21} & x_{22} & \cdots & x_{2d} & 1 \\ \vdots & \vdots & \ddots & \vdots \\ x_{m1} & x_{m2} & \cdots & x_{md} & 1 \\ \end{bmatrix}=\begin{bmatrix} x_1^T & 1\\ x_2^T & 1\\ \vdots & \vdots\\ x_m^T & 1 \end{bmatrix}$ 把 $w$ 和 $b$ 吸收入向量的形式 $\hat w=(w;b)$ ，把 $y$ 也写成向量形式 $y=(y_1;y_2;\cdots;y_m)$ ，有 ${\hat w}^2=\argmin_{\hat w}(y-X\hat w)^T(y-X \hat w)$ 令 $E_{\hat w}=(y-X\hat w)^T(y-X \hat w)$ ，对 $\hat w$ 求导得到 $\frac {\partial E_{\hat w}}{\partial \hat w}=2X^T(X\hat w-y).$ 令上式为零可得 $\hat w$ 最优解的闭式解。
由于上式涉及到矩阵逆的计算，我们需要讨论：
- 当 $X^TX$ 为满秩矩阵(full-rank matrix)或正定矩阵(positive definite matrix)时，令 $\frac {\partial E_{\hat w}}{\partial \hat w}$ 为零可得 ${\hat w}^*=(X^TX)^{-1}X^Ty,$ 令 $\hat {x_i}=(x_i,1)$ ，则最终学得的多元线性回归模型为 $f(\hat {x_i})={\hat {x_i}}^T(X^TX)^{-1}X^Ty.$
- 现实任务中， $X^TX$ 一般不是满秩矩阵。此时可解出多个 $\hat w$ ，它们都能使均方误差最小化。然后根据学习算法的偏好决定，将选择哪一个解输出，常见的作法是引入正则化项(regularization)。
对数线性回归(log-linear regression)：
- 当我们希望线性模型的预测值逼近真实标记 $y$ 时，我们把线性回归模型简写为 $y=w^Tx+b.$
- 假设上式多对应的输出标记是在指数尺度上变化，那就可以将输出标记的对数作为线性模型逼近的目标，即 $ln y=w^Tx+b.$
- 实际上是在试图让 $e^{w^Tx+b}$ 逼近 $y$ 。
广义线性模型(generalized linear model)：
- 考虑单调可微函数 $g(\cdot)$ ，令 $y=g^{-1}(w^Tx+b),$ 其中函数 $g(\cdot)$ 称为“联系函数”（link function）。
- 显然，对数线性回归是广义线性模型在 $g(\cdot)=ln(\cdot)$ 时的特例。

Logistic Regression（对数几率回归）

应用于二分类任务。
对于二分类任务，输出标记 $\in \lbrace{0,1}\rbrace$ ，而线性回归产生的预测值 $z=w^Tx+b$ 是实数值，因此，我们需要将实数值转换为0/1值。最理想的是单位跃阶函数(unit-step function)： $y=\begin{cases} 0, \space \space \space \space \space z<0\\ 0.5, \space \space z=0\\ 1, \space \space \space \space \space z>0 \end{cases}$
但是单位跃阶函数不连续，因此，我们需要找到一个近似单位跃阶函数的替代函数(surrogate function)，并且是单调可微函数。
近似单位跃阶函数的替代函数，我们选择对数几率函数(logistic function)： $y=\frac {1}{1+e^{-z}}$
下图显示单位跃阶函数和对数几率函数的图像：
根据图像可知，对数几率函数是一种Sigmoid函数（形似 $S$ 的函数），它将 $z$ 值转换为接近 $0$ 或 $1$ 的 $y$ 值，并且其输出值在 $z = 0$ 附近变化很陡。
因为 $y=g^{-1}(w^Tx+b)$ ，即 $g (y)$ ，将对数几率函数作为 $g(\cdot)$ 带入得： $y=\frac {1}{1+e^{-(w^Tx+b)}}$ 变化得： $\ln {\frac {y}{1-y}}=w^Tx+b$
若将 $y$ 视为样本 $x$ 作为正例的可能性，则 $1 - y$ 即作为反例的可能性，则二者的比值 $\frac {y}{1-y}$ 称为几率(odds)，反映 $x$ 作为正例的相对可能性。对几率取对数，则得到对数几率(log odds，logit)： $\ln {\frac {y}{1-y}}.$
对数几率回归的优点：
- 直接对分类可能性进行建模，无需事先建设数据分布，从而避免假设分布不准确所带来的问题。
- 可以得到近似概率预测，对许多需利用概率辅助决策的任务很有用。
- 对率函数是任意阶可导的凸函数，有很好的数学性质，现有的许多数值优化算法都可直接用于求取最优解。
求解 $y=\frac {1}{1+e^{-(w^Tx+b)}}$ 的 $w$ 和 $b$ ：
- 若将式 $y=\frac {1}{1+e^{-(w^Tx+b)}}$ 中的 $y$ 视为类后验概率估计 $p (y = 1 ∣ x)$ ，则式 $\ln {\frac {y}{1-y}}=w^Tx+b$ 可被重写为： $\ln {\frac {p(y=1|x)}{p(y=0|x)}}=w^Tx+b$
- 显然有： $p(y=1|x)=\frac {e^{w^Tx+b}}{1+e^{w^Tx+b}},\space \space \space \space \space \space \space \space \space \space \space \space \space \space \space (1)$ $p(y=0|x)=\frac {1}{1+e^{w^Tx+b}}.\space \space \space \space \space \space \space \space \space \space \space \space \space \space \space (2)$
- 于是，我们可以通过极大似然法(maximum likelihood method)来估计 $w$ 和 $b$ .给定数据集 $\lbrace{(x_i,y_i)}_{i=1}^m\rbrace$ ，对率回归模型最大化对数似然(log-likelihood)： $\ell(w,b)=\sum_{i=1}^m\ln {p(y_i|x_i;w,b)},\space \space \space \space \space \space \space \space \space \space \space \space \space \space \space (3)$ 即令每个样本属于其真实标记的概率越大越好。
- 为了便于讨论，，令 $\beta=(w;b),\hat x=(x;1)$ ，则 $w^Tx+b$ 可以简写为 $\beta^T \hat x$ ，再令 $p_1(\hat x;\beta)=p(y=1|\hat x;\beta),p_0(\hat x;\beta)=p(y=0|\hat x;\beta)=1-p_1(\hat x;\beta)$ ，则上式中的似然项可重写为： $p(y_i|x_i;w,b)=y_ip_1(\hat {x_i};\beta)+(1-y_i)p_0(\hat {x_i};\beta)\space \space \space \space \space \space \space \space \space \space \space \space \space \space \space (4)$
- 将（4）带入（3），再根据（1）和（2）可知，最大化式（3）等价于最小化： $\ell (-\beta)=\sum_{i=1}^m\bigg(-y_i\beta^T \hat{x_i}+\ln {(1+e^{\beta^T \hat {x_i}})}\bigg).$ 上式是关于 $\beta$ 的高阶可导连续凸函数，根据凸优化理论，经典的数值优化算法如梯度下降法、牛顿法等都可求得其最优解，于是就得到： $\beta^*\argmin_{\beta}l(\beta)$

线性判断分析（LDA）

线性判断分析(Linear Discriminant Analysis，简称LDA)是一种经典的线性学习方法，在二分类问题上，最早由Fisher提出，也称之为Fisher判别分析。
LDA思想：
- 给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离；
- 在对新鲜本进行分类时，将其投影到同样的这条直线上，再根据投影点的位置来确定新鲜本的类别。
- 下图是二位示意图：
给定数据集 $D=\lbrace{(x_i,y_i)}\rbrace_{i=1}^m,y_i \in {\lbrace{0,1}\rbrace}$ ，令 $X_i、\mu_i、\Sigma_i$ 分别表示第 $\in {\lbrace{0,1}\rbrace}$ 类示例的集合、均值向量、协方差矩阵。
- 若将数据投影到直线 $w$ 上，则两类样本的中心在直线上的投影分别为 $w^T\Sigma_0w$ 和 $w^T\Sigma_1w.$
- 由于直线是一维空间，因此 $w^T\mu_0、w^T\mu_1、w^T\Sigma_0w和w^T\Sigma_1w$ 均为实数.
想要使同类样例的投影点尽可能接近，可以让同类样例投影点的协方差尽可能小，即 $w^T\Sigma_0w+w^T\Sigma_1w$ 尽可能小；
想要使异类样例的投影点尽可能远离，可以让类中心之间的距离尽可能大，即 $||w^T\mu_0-w^T\mu_1||_2^2$ 尽可能大.
同时考虑，以上两者，则可得到欲最大化的目标：： $J=\frac {||w^T\mu_0-w^T\mu_1||_2^2}{w^T\Sigma_0w+w^T\Sigma_1w}=\frac {w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw}{w^T(\Sigma_0+\Sigma_1)w}.\space \space \space \space \space \space \space \space \space \space \space \space \space \space \space \space \space \space \space （\star）$ 定义类内散度矩阵(within-class scatter matrix) $S_w=\Sigma_0+\Sigma_1=\sum_{x\in X_0}(x-\mu_0)(x-\mu_0)^T+\sum_{x\in X_1}(x-\mu_1)(x-\mu_1)^T$ 以及类间散度矩阵(between-class scatter matrix) $S_b=(\mu_0-\mu_1)(\mu_0-\mu_1)^T,$ 则（ $\star$ ）式可重写为 $J=\frac {w^TS_bw}{w^TS_ww}.(\star \star)$ 这就是 $L D A$ 欲最大化的目标，即 $S_b$ 与 $S_w$ 的广义瑞利商(generalized Rayleigh quotient).
确定 $w$ ：
- 式（ $\star \star$ ）的分子和分母都是关于 $w$ 的二次项，因此它的解与 $w$ 的长度无关，只与方向有关。不失一般性，令 $w^TS_ww=1,$ 则式（ $\star \star$ ）等价于 $\min_w{-w^TS_bw},当w^TS_ww=1时.（\star \star \star）$
- 对上式及约束条件构造拉格朗日函数： $L(w,\lambda)=-w^TS_bw+\lambda(w^TS_ww-1)$ 对 $w$ 求偏导可得 $\frac {\partial L(w,\lambda)}{\partial w}=-\frac {\partial (w^TS_bw)}{\partial w}+\lambda \frac {\partial(w^TS_ww-1)}{\partial w}=-(S_b+S_b^T)w+\lambda(S_w+S_w^T)w$ 由于 $S_b=S_b^T,S_w=S_w^T$ ，所以 $\frac {\partial L(w,\lambda)}{\partial w}=-2S_bw+2\lambda S_ww$ 令上式等于0即可得 $-2S_bw+2\lambda S_ww=0,$ $S_bw=\lambda S_ww.$ 由于我们求解的只有 $w$ ，所以 $\lambda$ 的值可以被任意设定，我们注意到 $S_bw=(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw$ 如果令 $w$ 恒等于 $(\mu_0-\mu_1)^Tw$ ，那么上式即可改写为 $S_bw=\lambda(\mu_0-\mu_1)$ 将其代入 $S_bw=\lambda S_ww$ 即可解得 $w=S_w^{-1}(\mu_0-\mu_1)$
考虑到数值解的稳定性，在实践中通常是对 $S_w$ 进行奇异值分解，即 $S_w=U \Sigma V^T$ ，这里的 $\Sigma$ 是一个实对角矩阵，其对角线上的元素是 $S_w$ 的奇异值，然后再由 $S_w^{-1}=V \Sigma^{-1}V^T$ 得到 $S_w^{-1}$
将 $L D A$ 推广到多分类任务中：
- 假定存在 $N$ 个类，且第 $i$ 类示例数为 $m_i$ .
- 我们先定义全局散度矩阵： $S_t=S_b+S_w=\sum_{i=1}^m(x_i-\mu)(x_i-\mu)^T,$ 其中 $\mu$ 是所有示例的均值向量.
- 将类内散度矩阵 $S_w$ 重定义为每个类别的散度矩阵之和，即 $S_w=\sum_{i=1}^NS_{w_i},$ 其中 $S_{w_i}=\sum_{x \in X_i}(x-\mu_i)(x-\mu_i)^T.$
- 综上三式得： $S_b=S_t-S_w=\sum_{i=1}^Nm_i(\mu_i-\mu)(\mu_i-\mu)^T$
- 多分类 $L D A$ 可以有多种实现方法：使用 $S_b,S_w,S_t$ 三者中的任何两个即可.
- 常见的是采用优化目标： $\max_W \frac {tr(W^TS_bW)}{tr(W^TS_wW)},$ 其中 $\in R^{d×(N-1)}$ ， $tr(\cdot)$ 表示矩阵的迹。
- 上式通过如下广义特征值问题求解： $S_bW=\lambda S_w W.$ $W$ 的闭式解则是 $S_w^{-1}S_b$ 的 $N - 1$ 个最大广义特征值所对应的特征向量组成的矩阵.

多分类学习

考虑 $N$ 个类别 $C_1,C_2,\cdots,C_N$ ，多分类学习的基本思路是拆解法，即将多分类任务拆为若干个二分类任务求解。
具体来说，先对问题进行拆分，然后为拆出的每个二分类任务训练一个分类器；在测试时，对这些分类器的预测结果进行集成以获得最终的多分类结果。
问题集中在如何拆分和如何集成。
最经典的拆分策略有三种：
给定数据集 $D=\lbrace{(x_1,y_1),(x_2,y_2),\cdots,(x_m,y_m)}\rbrace,y_i \in \lbrace{C_1,C_2,\cdots,C_N}\rbrace.$
- 一对一（One vs. One，OvO）：
  将 $N$ 个类别两两配对，从而产生 $N (N - 1) / 2$ 个二分类任务。
- 一对其余（One vs. Rest，OvR）：
  每次将一个类的样例作为正例、所有其他类的样例作为反例来训练 $N$ 个分类器。
- 多对多（Many vs. Many，MvM）：
  每次将若干个类作为正类，若干个其他类作为反类。

类别不平衡问题

类别不平衡（class-imbalance）就是指分类任务中不同类别的训练样例数目差别很大的情况。
再缩放（rescaling）策略：
- 直接对训练集里的反类样例进行欠采样（undersampling）：
  去除一些反例使得正、反例数目接近，然后再进行学习。
- 对训练集里的正类样例进行过采样（oversampling）：
  增加一些正例使得正、反例数目接近，然后再进行学习。
- 直接基于原始训练集进行学习，但在用训练好的分类器进行预测时，将 $\frac {y'}{1-y'}=\frac {y}{1-y}×\frac {m^-}{m^+}$ 嵌入到其决策过程中，称为阈值移动（threshold-moving）。其中， $m^+$ 是正例的数目， $m^-$ 是反例数目， $\frac {m^+}{m^-}$ 是观测几率，若 $\frac {y}{1-y}>\frac {m^+}{m^-}$ 则预测为正例。

哎呦哥哥、

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Machine Learning——Linear Model

基本形式给定由ddd个属性描述的示例x=(x1;x2;⋯ ;xd)x=(x_1;x_2;\cdots;x_d)x=(x1;x2;⋯;xd)，其中xix_ixi是xxx在第iii个属性上的取值，线性模型(linearmodel)(linear model)(linearmodel)试图学得一个通过属性的线性组合来进行预测的函数，即f(x)=w1x1+w2x2+⋯+wdxd+b,f(x)=w_1x_1+w_2x_2+\cdots+w_dx_d+b,f(x)=w1x1+w2x2+⋯+wdxd
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

哎呦哥哥、 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。