西瓜书之线性模型

最新推荐文章于 2024-11-11 21:52:21 发布

无你想你

最新推荐文章于 2024-11-11 21:52:21 发布

阅读量287

点赞数

分类专栏：机器学习西瓜书文章标签：机器学习逻辑回归人工智能

本文链接：https://blog.csdn.net/qq_62904883/article/details/127341265

版权

机器学习西瓜书专栏收录该内容

7 篇文章 0 订阅

订阅专栏

西瓜书的学习内容

主要学习目标
线性模型
线性回归
- 均方误差
- 推广
对数几率回归
- 对数几率回归的解释
总结
相关学习链接

主要学习目标

我们主要的学习目的是简单看一遍西瓜书里面的内容,尽可能的对各个模型都有一定的了解,在本节课程当中,我会给大家分享机器学习相关的的内容,我主要是在学习吴恩达老师最新的机器学习的视频,但是学完之后还是觉得较为空泛,所以在此,借机会再重新复习
在这里插入图片描述

线性模型

线性模型可以说是机器学习当中最基础的模型之一了,其主要的形式如下
给定由 d 个属性描述的示例 $\boldsymbol{x}=\left(x_{1} ; x_{2} ; \ldots ; x_{d}\right)$ , 其中 $x_{i}$ 是 $\boldsymbol{x}$ 在第 i 个属性上的取值, 线性模型 $(linear\ model)$ 试图学得一个通过属性的线性组合来进行预测的函数, 即

$f(\boldsymbol{x})=w_{1} x_{1}+w_{2} x_{2}+\ldots+w_{d} x_{d}+b$

一般用向量形式写成

$f(\boldsymbol{x})=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b$
该模型的优点在于

可解释性强
可以根据权重来判断该变量是否重要

线性回归

线性回归首先要实现对变量的表示,尤其要注意对离散变量的表示,比如说在一列数据当中有男生和女生这两个变量,我们就可以使用 $0$ 和 $1$ 分别表示可以用0表示男生,1表示女生,然而像"西瓜",“南瓜”,“黄瓜”,则可以使用到 $\ code$ 的方法,也就是分别表示为 $(0, 0, 1), (0, 1, 0), (1, 0, 0)$
这样就基本上可以实现变量的表示了,那么我们接下来就要对模型进行训练得到 $w$ 和 $b$ 的值,这个就需要我们明白线性模型的目标是使用 $f(\boldsymbol{x_i})$ 逼近已有值(也就是数据集当中给到的) $y_i$

均方误差

在比较 $f(\boldsymbol{x_i})$ 和 $y_i$ 的过程我们可以简单表示为该图像
在这里插入图片描述
其中点表示样本,直线是拟合的函数,均方误差的作用就是尽可能让图像和样本点之间的距离为最小,尽可能的拟合,所以就可以得出均方误差的概念如下 $\sum_{i=1}^{m}\left(f\left(x_{i}\right)-y_{i}\right)^{2}$
所以计算 $w$ 和 $b$ 的方法就转变为
$\begin{aligned} \left(w^{*}, b^{*}\right) &=\underset{(w, b)}{\arg \min } \sum_{i=1}^{m}\left(f\left(x_{i}\right)-y_{i}\right)^{2} \\ &=\underset{(w, b)}{\arg \min } \sum_{i=1}^{m}\left(y_{i}-w x_{i}-b\right)^{2} . \end{aligned}$
这里分别将 $w$ 和 $b$ 看成变量,然后使用到概率论当中的极大似然估计的计算方法得出相关的结果,
那么分别对 $w$ 和 $b$ 分别求导可以得到
$\begin{array}{c} w=\frac{\displaystyle\sum_{i=1}^{m} y_{i}\left(x_{i}-\bar{x}\right)}{\displaystyle\sum_{i=1}^{m} x_{i}^{2}-\frac{1}{m}\left(\sum_{i=1}^{m} x_{i}\right)^{2}} \\ \end{array}$
$\begin{array}{c} b=\frac{1}{m} \displaystyle\sum_{i=1}^{m}\left(y_{i}-w x_{i}\right) \end{array}$
如果使用到矩阵的写法,可以把 $w$ 和 $b$ 写成 $\hat{\boldsymbol{w}}=(\boldsymbol{w} ; b)$ ,我们就可以写出
$\mathbf{X}=\left(\begin{array}{ccccc} x_{11} & x_{12} & \ldots & x_{1 d} & 1 \\ x_{21} & x_{22} & \ldots & x_{2 d} & 1 \\ \vdots & \vdots & \ddots & \vdots & \vdots \\ x_{m 1} & x_{m 2} & \ldots & x_{m d} & 1 \end{array}\right)=\left(\begin{array}{cc} \boldsymbol{x}_{1}^{\mathrm{T}} & 1 \\ \boldsymbol{x}_{2}^{\mathrm{T}} & 1 \\ \vdots & \vdots \\ \boldsymbol{x}_{m}^{\mathrm{T}} & 1 \end{array}\right)$
接下来可以写出
$\hat{\boldsymbol{w}}^{*}=\underset{\hat{\boldsymbol{w}}}{\arg \min }(\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}})^{\mathrm{T}}(\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}})$
对其进行求导(注意到要写成满秩矩阵或正定矩阵)
$\hat{\boldsymbol{w}}^{*}=\left(\mathbf{X}^{\mathrm{T}} \mathbf{X}\right)^{-1} \mathbf{X}^{\mathrm{T}} \boldsymbol{y}$
所以可以得出
$f\left(\hat{\boldsymbol{x}}_{i}\right)=\hat{\boldsymbol{x}}_{i}^{\mathrm{T}}\left(\mathbf{X}^{\mathrm{T}} \mathbf{X}\right)^{-1} \mathbf{X}^{\mathrm{T}} \boldsymbol{y}$

推广

除了均方误差,还有另一种实现拟合的误差叫做平均误差 $\sum_{i=1}^{m}\left|f\left(x_{i}\right)-y_{i}\right|$
但是在求导的过程当中均方误差求导更加方便

对数几率回归

实现二分类任务,将 $y$ 标记为 $0$ 和 $1$ 可以得到 $y=\left\{\begin{array}{cc} 0, & z<0 \\ 0.5, & z=0 \\ 1, & z>0 \end{array}\right.$
但是为了实现这样的分类,并不容易,因为其是离散型的,并不容易进行,所以要找到一个替代模型,这其中就包括我们要讲的对数几率回归 $y=\frac{1}{1+e^{-z}}$
其中 $z$ 表示的是 $z=w^Tx+b$
若将上式可以调整为 $\ln \frac{y}{1-y}=w^{\mathrm{T}} \boldsymbol{x}+b$
用概率的方法去做可以得到
$\begin{array}{l} \Large p(y=1 \mid \boldsymbol{x})=\frac{e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b}}{1+e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b}} \\ \Large p(y=0 \mid \boldsymbol{x})=\frac{1}{1+e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b}} \end{array}$
对数似然
$\ell(\boldsymbol{w}, b)=\sum_{i=1}^{m} \ln p\left(y_{i} \mid \boldsymbol{x}_{i} ; \boldsymbol{w}, b\right)$
进行改写成如下(重写似然项)
$p\left(y_{i} \mid \boldsymbol{x}_{i} ; \boldsymbol{w}, b\right)=y_{i} p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)+\left(1-y_{i}\right) p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)$
可以使用数值优化算法得到最优解
$\boldsymbol{\beta}^{*}=\underset{\boldsymbol{\beta}}{\arg \min }\ \ell(\boldsymbol{\beta})$