【西瓜书笔记】1. 一元线性回归

最新推荐文章于 2022-10-17 21:04:00 发布

西风瘦马1912

最新推荐文章于 2022-10-17 21:04:00 发布

阅读量176

点赞数

分类专栏：《机器学习》西瓜书第15期

本文链接：https://blog.csdn.net/weixin_39236489/article/details/110635522

版权

《机器学习》西瓜书第15期专栏收录该内容

19 篇文章 0 订阅

订阅专栏

任务标题：绪论+线性模型推导

任务简介：

1、学习机器学习绪论，了解预备知识，认识群内其他小伙伴，下载书籍电子版，提前自己预习观看

2、学习西瓜书3.1/3.2/3.3，观看西瓜书公式推导学习指南和线性模型公式推导视频

任务详解：

1、本部分是机器学习的绪论部分，对于这部分的学习，我并未让大家去阅读西瓜书的第一章的绪论部分，因为那部分对于初学者来讲太难了，应该就是天书，越看越蒙，这部分内容希望大家在学习完整个机器学习课程后，再回头看就好。为了让大家更轻松更好的去理解机器学习，我们特此做了这个视频，主要讲述了两个方面内容，一个是机器学习的应用案例，这部分是核心内容，另外一个是机器学习理论的一个大概的分类，主要目的是想告诉同学们机器学习是什么？机器学习有哪些应用？你们应该重点关注哪些应用？希望大家在本节内容学习后，心里已经有了这三个问题的答案。

书籍下载：去公众号深度之眼后台回复西瓜书或推荐书籍，即可领取电子版

2、这部分就是我们要学习的第一个机器学习模型，线性模型，一个简单而重要的模型，前两节主要讲线性回归，这个就是我们过去学过的最小二乘法的内容，相信大家都不陌生的。而第三小节讲的对数几率回归才是我们正章的核心，这个算法也是目前应用最广的算法之一，希望大家能够完全理清这个算法的工作流程，这也是对大家在本周最为核心的一个要求。

1.1 基本形式

给定由d个属性描述的示例 $\boldsymbol{x}=\left(x_{1} ; x_{2} ; \ldots ; x_{d}\right)$ ,其中 $x_i$ 是 $\boldsymbol{x}$ 在第i个属性上的取值，线性模型试图学得一个通过属性的线性组合来进行预测的函数，即
$f(\boldsymbol{x})=w_{1} x_{1}+w_{2} x_{2}+\ldots+w_{d} x_{d}+b\\ f(\boldsymbol{x})=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b$
其中 $\boldsymbol{w}=\left(w_{1} ; w_{2} ; \ldots ; w_{d}\right)$ . $\boldsymbol{w}$ 和 $b$ 学得之后，模型就得以确定。

线性模型形式简单，易于建模
蕴含机器学习一些重要基本思想。许多非线性模型可在线性模型的基础上通过引入层级结构或者高维映射而得【层级结构：神经网络，高维映射：核函数、支持向量机】
权重直观表达各属性的重要性，模型可解释性好【权重绝对值的大小？】

1.2 一元线性回归

如果输入属性的数目只有一个，就是一元线性回归的情况， $D=\left\{\left(x_{i}, y_{i}\right)\right\}_{i=1}^{m}$ ，其中 $x_{i} \in \mathbb{R}$ 。对离散属性：

如果属性值间存在序(order)关系，可通过连续化将其转化为连续值：高、矮可转化为 ${1.0,0.0\}$ ,高中低可转化为 ${1.0,0.5,0.0\}$
如果没有序关系，就可以做one-hot encoding

优化问题：如何衡量 $f (x)$ 与 $y$ 之间的差别。回归任务：均方误差，因此转化为优化均方误差

$\begin{aligned} \left(w^{*}, b^{*}\right) &=\underset{(w, b)}{\arg \min } \sum_{i=1}^{m}\left(f\left(x_{i}\right)-y_{i}\right)^{2} \\ &=\underset{(w, b)}{\arg \min } \sum_{i=1}^{m}\left(y_{i}-w x_{i}-b\right)^{2} \end{aligned}$

均方误差 $\leftrightarrow$ 欧几里得距离
基于均方误差最小化的模型求解方法：最小二乘法(least square method)
优化求解过程：最小二乘参数估计

求解偏置b和w，就是由最小二乘法导出损失函数 $b)=\sum_{i=1}^{m}\left(y_{i}-w x_{i}-b\right)^{2}$ , 然后偏导置零。

推导b的思路:

由最小二乘法导出损失函数 $E (w, b)$
证明损失函数 $E (w, b)$ 是关于w和b的凸函数
对损失函数 $E (w, b)$ 关于b求一阶偏导
令一阶偏导等于0解出b

第二步中要利用二元函数判断凹凸性定理和二元凹凸函数求最值定理

推导w的思路

由最小二乘法导出损失函数 $E (w, b)$
证明损失函数 $E (w, b)$ 是关于w和b的凸函数
对损失函数 $E (w, b)$ 关于b求一阶偏导
令一阶偏导等于0解出w

【要运用x和y的均值表达式巧妙将w的表达式向量化。】

先考虑推导b。我们已经有了 $E (w, b)$ 。然后证明凸函数。【凸函数：对其定义域上的任意两点， $f\left(\frac{x_{1}+x_{2}}{2}\right) \leq \frac{f\left(x_{1}\right)+f\left(x_{2}\right)}{2}$ , 也就是两点连线中点肯定大于等于两个变量取值中点。凹函数相反】

背后的理论基础

二元函数判断凹凸性：

设 $f (x, y)$ 在区域 $D$ 上具有二阶连续偏导函数，记作 $A=f_{x x}^{\prime \prime}(x, y), B=f_{x y}^{\prime \prime}(x, y)$ , 则 $C=f_{y y}^{\prime \prime}(x, y)$

(1) 在 $D$ 上恒有 $A > 0$ 且 $AC-B^{2}\ge 0$ 时， $f (x, y)$ 在区域 $D$ 上是凸函数

(2) 在 $D$ 上恒有 $A < 0$ 且 $AC-B^{2} \ge 0$ 时， $f (x, y)$ 在区域 $D$ 上是凹函数

【形式上类似于二次函数有无根的判别式，只不过没有了4且与根判别式( $b^{2}-4ac$ ) 符号相反,，且类似A>0开口向上，A<0开口向下】

二元凹凸函数求最值：

设 $f (x, y)$ 是在开区域 $D$ 内具有连续偏导数的凸（或者凹）函数，有 $\left(x_{0}, y_{0}\right) \in D$ , 且 $f_{x}^{\prime}\left(x_{0}, y_{0}\right)=0, f_{y}^{\prime}\left(x_{0}, y_{0}\right)=0$ ,则 $f(x_0, y_0)$ 必为 $f (x, y)$ 在 $D$ 内的最小值（或者最大值）。

【参考文献:陈朝晖. 二元函数凹凸性的判别法及最值探讨[J]. 高师理科学刊, 2010, 30(5):25-28.】

证明 $E (w, b)$ 是关于 $w$ 和 $b$ 的凸函数。我们先求判别式中的 $A$ ：
$\begin{aligned} \dfrac{\partial E_{(w, b)}}{\partial w} &=\dfrac{\partial}{\partial w}\left[\sum_{i=1}^{m}\left(y_{i}-w x_{i}-b\right)^{2}\right] \\ &=\sum_{i=1}^{m} \dfrac{\partial}{\partial w}\left(y_{i}-w x_{i}-b\right)^{2} \\ &=\sum_{i=1}^{m} 2 \cdot\left(y_{i}-w x_{i}-b\right) \cdot\left(-x_{i}\right) \\ &=2\left(w \sum_{i=1}^{m} x_{i}^{2}-\sum_{i=1}^{m}\left(y_{i}-b\right) x_{i}\right) \end{aligned}$

$\begin{aligned} A=f_{x x}^{\prime \prime}(x, y)=\dfrac{\partial^{2} E_{(w, b)}}{\partial w^{2}} &=\dfrac{\partial}{\partial w}\left(\dfrac{\partial E_{(w, b)}}{\partial w}\right) \\ &=\dfrac{\partial}{\partial w}\left[2\left(w \sum_{i=1}^{m} x_{i}^{2}-\sum_{i=1}^{m}\left(y_{i}-b\right) x_{i}\right)\right] \\ &=\dfrac{\partial}{\partial w}\left[2 w \sum_{i=1}^{m} x_{i}^{2}\right]\\ &=2\sum_{i=1}^{m}x_{i}^{2} \end{aligned}$

求 $B$ :
$\begin{aligned} B=f_{x y}^{\prime \prime}(x, y) = \dfrac{\partial^{2} E_{(w, b)}}{\partial w \partial b} &=\dfrac{\partial}{\partial b}\left(\dfrac{\partial E_{(w, b)}}{\partial w}\right) \\ &=\dfrac{\partial}{\partial b}\left[2\left(w \sum_{i=1}^{m} x_{i}^{2}-\sum_{i=1}^{m}\left(y_{i}-b\right) x_{i}\right)\right] \\ &=\dfrac{\partial}{\partial b}\left[-2 \sum_{i=1}^{m}\left(y_{i}-b\right) x_{i}\right] \\ &=\dfrac{\partial}{\partial b}\left(-2 \sum_{i=1}^{m} y_{i} x_{i}+2 \sum_{i=1}^{m} b x_{i}\right) \\ &=\dfrac{\partial}{\partial b}\left(2 \sum_{i=1}^{m} b x_{i}\right)=2 \sum_{i=1}^{m} x_{i} \end{aligned}$
求 $C$ ：
$\begin{aligned} \frac{\partial E_{(w, b)}}{\partial b} &=\frac{\partial}{\partial b}\left[\sum_{i=1}^{m}\left(y_{i}-w x_{i}-b\right)^{2}\right] \\ &=\sum_{i=1}^{m} \frac{\partial}{\partial b}\left(y_{i}-w x_{i}-b\right)^{2} \\ &=\sum_{i=1}^{m} 2 \cdot\left(y_{i}-w x_{i}-b\right) \cdot(-1)\\ &=2\left(m b-\sum_{i=1}^{m}\left(y_{i}-w x_{i}\right)\right) \end{aligned}$

$\begin{aligned} C=f_{y y}^{\prime \prime}(x, y)=\dfrac{\partial^{2} E_{(w, b)}}{\partial b^{2}} &=\dfrac{\partial}{\partial b}\left(\dfrac{\partial E_{(w, b)}}{\partial b}\right) \\ &=\dfrac{\partial}{\partial b}\left[2\left(m b-\sum_{i=1}^{m}\left(y_{i}-w x_{i}\right)\right)\right] \\ &=\dfrac{\partial}{\partial b}(2 m b)\\ &=2m \end{aligned}$

至此，我们可以求：
$C-B^{2}=2 m \cdot 2 \sum_{i=1}^{m} x_{i}^{2}-\left(2 \sum_{i=1}^{m} x_{i}\right)^{2}=4 m \sum_{i=1}^{m} x_{i}^{2}-4\left(\sum_{i=1}^{m} x_{i}\right)^{2}=4 m \sum_{i=1}^{m} x_{i}^{2}-4 \cdot m \cdot \frac{1}{m} \cdot\left(\sum_{i=1}^{m} x_{i}\right)^{2}\\ =4 m \sum_{i=1}^{m} x_{i}^{2}-4 m \cdot \bar{x} \cdot \sum_{i=1}^{m} x_{i}=4 m\left(\sum_{i=1}^{m} x_{i}^{2}-\sum_{i=1}^{m} x_{i} \bar{x}\right)=4 m \sum_{i=1}^{m}\left(x_{i}^{2}-x_{i} \bar{x}\right)$
【这里我们采用恒等乘除的技巧，引入样本数m,将样本和平方转化为样本均值乘以样本和，因为样本均值没有了样本下标，也就使得两项中的求和操作可以归并】

又因为：
$\sum_{i=1}^{m} x_{i} \bar{x}=\bar{x} \sum_{i=1}^{m} x_{i}=\bar{x} \cdot m \cdot \frac{1}{m} \cdot \sum_{i=1}^{m} x_{i}=m \bar{x}^{2}=\sum_{i=1}^{m} \bar{x}^{2}$
所以：
$AC-B^{2} = 4 m \sum_{i=1}^{m}\left(x_{i}^{2}-x_{i} \bar{x}-x_{i} \bar{x}+x_{i} \bar{x}\right)=4 m \sum_{i=1}^{m}\left(x_{i}^{2}-x_{i} \bar{x}-x_{i} \bar{x}+\bar{x}^{2}\right)=4 m \sum_{i=1}^{m}\left(x_{i}-\bar{x}\right)^{2} \ge 0$
因此，损失函数 $E (w, b)$ 是关于 $w, b$ 的凸函数得证。

先求 $b$ .我们已经有:
$\frac{\partial E_{(w, b)}}{\partial b}=2\left(m b-\sum_{i=1}^{m}\left(y_{i}-w x_{i}\right)\right)$
令其等于0：
$\dfrac{\partial E_{(w, b)}}{\partial b}=2\left(m b-\sum_{i=1}^{m}\left(y_{i}-w x_{i}\right)\right)=0\\ \Rightarrow m b-\sum_{i=1}^{m}\left(y_{i}-w x_{i}\right)=0 \\ \Rightarrow b=\dfrac{1}{m} \sum_{i=1}^{m}\left(y_{i}-w x_{i}\right) = \dfrac{1}{m} \sum_{i=1}^{m} y_{i}-w \cdot \dfrac{1}{m} \sum_{i=1}^{m} x_{i}=\bar{y}-w \bar{x}$
再求 $w$
$\dfrac{\partial E_{(w, b)}}{\partial w}=2\left(w \sum_{i=1}^{m} x_{i}^{2}-\sum_{i=1}^{m}\left(y_{i}-b\right) x_{i}\right)=0 \\ \Rightarrow w \sum_{i=1}^{m} x_{i}^{2}=\sum_{i=1}^{m} y_{i} x_{i}-\sum_{i=1}^{m} b x_{i}$
将 $b=\bar{y}-w \bar{x}$ 代入，有
$\begin{aligned} w \sum_{i=1} x_{i}^{2}=\sum_{i=1} y_{i} x_{i}-\sum_{i=1}(\bar{y}-w \bar{x}) x_{i} \\ w \sum_{i=1}^{m} x_{i}^{2}=\sum_{i=1}^{m} y_{i} x_{i}-\bar{y} \sum_{i=1}^{m} x_{i}+w \bar{x} \sum_{i=1}^{m} x_{i} \\ w \sum_{i=1}^{m} x_{i}^{2}-w \bar{x} \sum_{i=1}^{m} x_{i}=\sum_{i=1}^{m} y_{i} x_{i}-\bar{y} \sum_{i=1}^{m} x_{i} \\ w\left(\sum_{i=1}^{m} x_{i}^{2}-\bar{x} \sum_{i=1}^{m} x_{i}\right)=\sum_{i=1}^{m} y_{i} x_{i}-\bar{y} \sum_{i=1}^{m} x_{i} \end{aligned}$
然后进一步简化：
$\begin{aligned} w&=\dfrac{\sum_{i=1}^{m} y_{i} x_{i}-\bar{y} \sum_{i=1}^{m} x_{i}}{\sum_{i=1}^{m} x_{i}^{2}-\bar{x} \sum_{i=1}^{m} x_{i}}\\ &=\dfrac{\sum_{i=1}^{m} y_{i} x_{i}-\bar{x} \sum_{i=1}^{m} y_{i}}{\sum_{i=1}^{m} x_{i}^{2}-\frac{1}{m}\left(\sum_{i=1}^{m} x_{i}\right)^{2}}\\ &=\dfrac{\sum_{i=1}^{m} y_{i}\left(x_{i}-\bar{x}\right)}{\sum_{i=1}^{m} x_{i}^{2}-\frac{1}{m}\left(\sum_{i=1}^{m} x_{i}\right)^{2}} \end{aligned}$
其中
$\bar{y} \sum_{i=1}^{m} x_{i}=\dfrac{1}{m} \sum_{i=1}^{m} y_{i} \sum_{i=1}^{m} x_{i}=\bar{x} \sum_{i=1}^{m} y_{i}\\ \bar{x} \sum_{i=1}^{m} x_{i}=\dfrac{1}{m} \sum_{i=1}^{m} x_{i} \sum_{i=1}^{m} x_{i}=\frac{1}{m}\left(\sum_{i=1}^{m} x_{i}\right)^{2}$

自此得到了花书中page54, page55的式子(3.7), (3.8)

西风瘦马1912

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【西瓜书笔记】1. 一元线性回归

任务标题：绪论+线性模型推导任务简介：1、学习机器学习绪论，了解预备知识，认识群内其他小伙伴，下载书籍电子版，提前自己预习观看2、学习西瓜书3.1/3.2/3.3，观看西瓜书公式推导学习指南和线性模型公式推导视频任务详解：1、本部分是机器学习的绪论部分，对于这部分的学习，我并未让大家去阅读西瓜书的第一章的绪论部分，因为那部分对于初学者来讲太难了，应该就是天书，越看越蒙，这部分内容希望大家在学习完整个机器学习课程后，再回头看就好。为了让大家更轻松更好的去理解机器学习，我们特此做了这个视频，主要讲述了
复制链接

扫一扫

专栏目录