机器学习算法（一）：线性模型

最新推荐文章于 2021-08-13 12:50:33 发布

学习机器.

最新推荐文章于 2021-08-13 12:50:33 发布

阅读量296

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/m0_49007293/article/details/114644796

版权

笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

一、线性回归

对于由m个d维样本点组成的样本x
在这里插入图片描述

线性回归模型试图学得一个通过属性的线性组合来进行预测的函数：
在这里插入图片描述
或用矩阵形式表示为：

使得

其中
在这里插入图片描述
注意这里w和x都是列向量，b是截距项。当w和b确定后，模型也就确定了，那么怎么求w和b呢？最优的w和b就是使损失函数最小的w和b，类似于一元线性回归中使用均方误差（或残差平方和）作为损失函数，多元线性回归损失函数可以用矩阵表示为：
在这里插入图片描述
上式中，为了便于讨论我们把数据集矩阵x增广为一个m*(d+1)的矩阵X，把w和b吸收入

，亦即

那么令

解上式后即可得到

同时也就得到了w和b。

二、逻辑回归（对数几率回归）

上一节讨论的是如何使用线性模型进行回归学习，但如果想使用线性模型进行分类任务该怎么做呢？分类任务最终要得到每个样本点是正例或负例的概率，也就是说要输出一个0~1的小数，而我们线性回归中y是属于实数集R的。我们把线性回归的输出命名为z,把最终输出的概率命名为y，因此我们可以找一个单调可导函数y=g(z)输出范围在0到1之间，即：
在这里插入图片描述

g(z)函数的输入范围应为R，输出范围应为0~1.而sigmoid函数具备这样的良好性质
在这里插入图片描述
将线性回归函数带入上式可得逻辑回归函数：

变换后可得：
在这里插入图片描述
前面已经提到了，y就是样本点为正例的概率，那么1-y自然就是负例的概率，y/(1-y)反映了样本点为正例的相对可能性，称为"几率"(odds)，“对数几率回归”（logistic regression)的名称由此而来，亦称“逻辑回归”。
下面的问题自然就是解出逻辑回归函数中的w和b，什么样的w和b才是我们想要的呢？频率学派认为：参数是客观存在的固定值，因此，最好的参数应当能使数据出现的可能性最大。在我们这里，最好的参数应当能使每个样本点属于其真实标记的概率最大。
样本点为正例或负例的概率为：
在这里插入图片描述

我们可以概括性的写为：
在这里插入图片描述
于是可以构造似然函数

上式为连乘，容易造成下溢出并且难以求导，所以一般使用对数似然

令

即可求得参数w和b。然而我们一般难以求得解析解，所以使用梯度下降法（或牛顿法等）。
梯度下降法需要求的是损失函数最小时的参数，所以需要做如下变换：
在这里插入图片描述
J(w)事实上就是损失函数，那么参数更新公式为：

至此，逻辑回归求解完毕。
逻辑回归有以下优点：
1.它直接对分类可能性进行建模，无需实现假设数据分布。
2.它得到的是概率，再用一个阈值去分类，而不是直接分类。
3.目标函数y=g(z)是任意阶可导函数，具有很好的数学性质。