机器学习学习笔记（五）-线性模型_对数线性模型是广义线性模型吗-CSDN博客

本文链接：https://blog.csdn.net/qq_41989587/article/details/84961951

绪论
模型评估与选择（1）
模型评估与选择（2）
模型评估与选择（3）
线性模型（1）线性回归
决策树
神经网络
支持向量机
贝叶斯分类
集成学习
聚类
降维与度量学习
特征选择与稀疏学习
计算学习理论
半监督学习
概率图模型
规则学习
强化学习

第三章：线性模型

3.1 基本形式

给定由d个属性描述的示例x=(x1,x2,x3,x4…xd)，其中xi是x在第i个属性上的取值，线性模型（linear model）试图学得一个通过属性的线性组合来进行预测的函数，即
在这里插入图片描述

3.2 线性回归

给定数据集D={（x1,y1）,（x2,y2），…(xm,ym）}，其中xi=(xi1;xi2;…xid)
，“线性回归”试图学得一个线性模型以尽可能准确地预测实值输出标记。

我们考虑一种最简单的情形：输入属性（特征只有一个）的数目只有一个。每个样本只有一个属性

如果是离散属性，若属性值间存在“序”（order）关系，可通过连续化将其转化为连续值，例如二值属性“身高”的取值“高”“矮”可转化为{1.0，0.0}，三值属性“高度”的取值“高”“中”“低”可转化为{1.0，0.5，0.0}；若属性值间不存在序关系，假定有k个属性值，则通常转化为k维向量，例如属性“瓜类”的取值“西瓜”“南瓜”“黄瓜”可转化为（0，0，1），（0，1，0）（1，0，0）。

线性回归试图学得

在这里插入图片描述

如何确定w和b是线性回归需要解决的问题。关键在于衡量f(x)与y之间的差距。在模型评估与选择中介绍过，均方误差是回归任务中最常用的性能度量。因此我们可试图让均方误差最小化，即
在这里插入图片描述

基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。在线性回归中，最小二乘法就是试图找到一条直线，使所有样本到直线上的欧式距离之和最小。
求解w和b使如下公式最小化的过程称为线性回归模型的最小二乘“参数估计”。在这里插入图片描述

我们可将E(w,b)分别对w和b求导，得到
在这里插入图片描述

更一般的情形是样本有d个属性描述，此时我们试图学得
在这里插入图片描述
这称为“多远线性回归”。

我们仍可以用最小二乘法对w和b进行估计。我们把w和b变成向量模式w ̂=（w,b），相应的，把数据集D表示成一个m*(d+1)大小的矩阵X，其中每行对应于一个示例，该行前d个元素对应于示例的d个属性值，最后一个元素恒为1，即
在这里插入图片描述
令上式为0可得到w ̂最优解的闭式解，但由于涉及矩阵逆的计算，比单变量情形要复杂一些。下面我们做一个简单的讨论。
当X^T X为满秩矩阵或正定矩阵时，令式（3.10）为0可得

然而，现实任务中X^TX往往不是满秩矩阵，例如在许多任务中我们会遇到大量的变量，其数目甚至超过样例数，导致X的列数多余行数，X^TX显然不满秩。此时可解出多个w^，他们都能使均方误差最小化。选择哪一个解作为输出，将由学习算法的归纳偏好决定，常见的做法是引入正则项。

可否令模型逼近y的衍生物呢？譬如说，假设我们认为示例所对应的输出标记是在指数尺度上变化，那就可将输出标记的对数作为线性模型逼近的目标，即ln y=w^Tx+b。这就是“对数线性回归”。实际上已是在求取输入空间到输出空间的非线性函数映射，这里的对数函数起到了将先行回归模型的预测值与真实标记联系起来的作用。
在这里插入图片描述
更一般的可以考虑单调可微函数g(·），令y=g^-1(w^Tx+b)，这样得到的模型称为“广义线性模型”。其中函数g(·)称为“联系函数”。显然，对数线性回归是广义线性模型的一种。