ML(三）线性模型

最新推荐文章于 2021-09-14 22:22:14 发布

PearNotBear

最新推荐文章于 2021-09-14 22:22:14 发布

阅读量541

点赞数 1

分类专栏：机器学习文章标签：算法 python 机器学习人工智能深度学习

本文链接：https://blog.csdn.net/pearbear/article/details/118916936

版权

线性回归最小二乘法极大似然估计模型参数预测模型

关键词由CSDN通过智能技术生成

机器学习专栏收录该内容

9 篇文章 1 订阅

订阅专栏

3.1线性回归

引言

在生活中经常会遇到的一些问题，比如犯罪现场留下的鞋码大概估计嫌疑人的身高；又比如通过一个程序员的发际线高度来判断这个程序员的计算机水平；再比如买西瓜的时候，通过某个西瓜色泽、根蒂、敲声等来判断西瓜是好瓜还是坏瓜等等。一个吃过或者见过很多不同类型西瓜的吃瓜人，往往可以根据鉴瓜经验去判断西瓜的好坏。

把上面过程抽象出来就是：

利用一个已经训练好的带参(θ)模型M（有经验的吃瓜人）
根据样本的特征（西瓜色泽、根蒂、敲声等）预测样本的目标值（好瓜/坏瓜）。

在这里插入图片描述
那么要怎么成为一个有经验的吃瓜人呢？（也就是如何获得一个能解决目标问题的模型？）

可以通过品鉴不同的西瓜总结好瓜/坏瓜和西瓜特征之间的关系（模型通过观察大量与问题相关的样本，利用某种方式学习预测目标和特征之间的映射关系，或者说利用某种方式确定模型中的参数 $θ$ ）。
在这里插入图片描述

机器学习三要素

根据上面的逻辑，可以梳理出利用机器学习方法解决实际需求的三个问题，并对应总结三要素：

应该选择什么模型去解决问题？
应该用什么策略引导该模型利用观测样本去学习模型中的参数？
应该用什么算法去求解模型参数？
模型：根据具体问题，确定假设空间（选择模型）。
策略：根据评价标准，确定选取最优模型的策略（通常会产出一个“损失函数”）。
算法：求解损失函数，确定最优模型。

笔记部分

在这里插入图片描述

线性回归模型

模型

原理
线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数：

$f(\mathbf x)=w_1x_1+w_2x_2+…+w_dx_d+b=\mathbf w^T\mathbf x+b$ 。

其目标就是通过观测样本利用某一种策略（常见的如最小二乘法、最大似然法）学习 $\mathbf w$ 和 $b$ 。从而根据未知标签或预测量的新样本对应的特征，带入 $\mathbf w$ 和 $b$ ，得预测结果。

对应到机器学习三要素中分别为：

模型：线性回归模型， $f(\mathbf x)=\mathbf w^T\mathbf x+b$ 。
策略：常见如利用最小二乘法或最大似然法构建的loss function $E_{(w,b)}$ 求解 $\mathbf w$ 和 $b$ 。
算法：求偏导 $\frac{\partial E_{(w,b)}}{\partial w}=0$ ， $\frac{\partial E_{(w,b)}}{\partial b}=0$ ，求解 $\mathbf w$ 和 $b$ 的最优闭式解。
线性模型的优势：由于 $\mathbf w$ 直观表达了各属性在预测中的重要性，因此线性模型有很好的可解释性(comprehensibility)，权重可以代表某类特征的重要性。

策略——构建loss function

我们先考虑输入属性的数目只有1个，即一元线性回归。

最小二乘法

基于最小化均方误差来进行模型求解的方法称为最小二乘法。在线性回归中，最小二乘法就是试图找到一条直线，使所有样本到直线上的欧氏距离之和最小。

均方误差的定义：

$E_{(w,b)}=\sum\limits_{i=1}^n(y_i-f(x_i))^2$

以均方误差作为loss function，argmin表示 $E_{(w,b)}$ 取最小值时参数 $(w, b)$ 的取值（ $w^,b^)$ ）。
策略就是让找到的直线的均方误差最小：
$(w^,b^)=\mathop{arg min}\limits_{(w,b)}E_{(w,b)}=\mathop{arg min}\limits_{(w,b)}\sum\limits_{i=1}^n(y_i-wx_i-b)^2$

极大似然估计（主要摘自视频PPT）

使得观测样本出现概率最大的分布就是待求分布。

在这里插入图片描述

以一个案例展示利用极大似然法估计概率分布的参数：
在这里插入图片描述

在线性回归模型中，可以作进一步假设：
在这里插入图片描述

在这里插入图片描述

算法——求解参数
求解 $w$ 和 $b$ 其本质上是一个多元函数求最值（点）的问题，更具体点是凸函数求最值的问题。
推导思路：
证明 $E_{(w,b)}=\sum\limits_{i=1}^n(y_i-wx_i-b)^2$ 时关于 $w$ 和 $b$ 的凸函数；
用凸函数求最值的思路（求导）求解 $w$ 和 $b$ 。
在这里插入图片描述

注意：数分与高数的凹凸函数定义相反。凸函数的开口朝上。

证明 $E_{(w,b)}$ 为凸函数

定理
在这里插入图片描述

梯度
在这里插入图片描述

海塞矩阵Hessian matrix
在这里插入图片描述

怎么证明矩阵半正定？

半正定矩阵的判定定理之一：

若实对称矩阵的所有顺序主子式均为非负，则该矩阵为半正定矩阵。

顺序主子式
在这里插入图片描述

凸函数求最值

凸充分性定理

求偏导 $\frac{\partial E_{(w,b)}}{\partial w}=0$ ， $\frac{\partial E_{(w,b)}}{\partial b}=0$ ，求解 $w$ 和 $b$ 的最优闭式解。
在这里插入图片描述

多元线性回归

模型

多元线性回归考虑了样本有超过1维属性的特征，即某个样本 $x_i$ 的属性向量为 $x_{i1};x_{i2};…;x_{id})$ 。
把 $w$ 和 $b$ 吸收入向量形式 $\hat w=(ω;b)$ ，相应的，把数据集 $D$ 表示为一个 $m \times (d + 1)$ 大小的矩阵 $X$ ，其中每行对应于一个示例，该行前 $d$ 个元素对应于示例的 $d$ 个属性值，最后一个元素恒置为1，即：

策略——构建loss function

最小二乘法
在这里插入图片描述

算法—求解参数

在这里插入图片描述
证明 $E_{\mathbf {\hat w}}$ 为凸函数

矩阵微分证明可参考：

https://www.cnblogs.com/picassooo/p/12925575.html

凸函数求最值
同样利用求导的方法求解最值。
在这里插入图片描述

广义线性模型(generalized linear model)

考虑单调可微函数 $g (\cdot)$ ，称为”联系函数”(link funtin)，令：

其形式上仍是线性回归，但实质上已是在求取输入空间到输出空间的非线性函数映射。

对数线性回归

当 $g(·)=\ln(·)$ 时，为对数线性模型。

假设样本所对应的输出标记是在指数尺度上变化，那就可将输出标记的对数作为线性模型逼近的目标，即：
在这里插入图片描述

Tips

线性回归和正交回归的区别

蓝色线段为线性回归计算loss的方式，而橙色线段为正交回归计算loss的方式。
在这里插入图片描述

离散、连续特征拼接方法

当有不同类型的特征时，如何拼接/融合不同的特征到模型中：

将离散和连续特征拼接在一起：
在这里插入图片描述

后续会有线性回归的代码复现以及其他模型

PearNotBear

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
ML(三）线性模型

3.1线性回归引言在生活中经常会遇到的一些问题，比如犯罪现场留下的鞋码大概估计嫌疑人的身高；又比如通过一个程序员的发际线高度来判断这个程序员的计算机水平；再比如买西瓜的时候，通过某个西瓜色泽、根蒂、敲声等来判断西瓜是好瓜还是坏瓜等等。一个吃过或者见过很多不同类型西瓜的吃瓜人，往往可以根据鉴瓜经验去判断西瓜的好坏。把上面过程抽象出来就是：利用一个已经训练好的带参(θ)模型M（有经验的吃瓜人）根据样本的特征（西瓜色泽、根蒂、敲声等）预测样本的目标值（好瓜/坏瓜）。那么要怎么成为一个有经验的吃瓜
复制链接

扫一扫