《机器学习》之 详解线性模型

线性模型

1.基本形式

例如用d个属性描述示例x=(x1,x2,…,xd)x=(x1,x2,…,xd),其中,xixi是x在第i个属性上的取值。
线性模型(linear model)就是试图用一个线性组合来描述:
f(x)=w1x1+w2x2+…+wdxd+b
f(x)=w1x1+w2x2+…+wdxd+b

我们在其他很多的课程中肯定也接触到用层级结构或者高纬映射的线性模型去近似非线性模型(nonlinear model)。 由于线性模型的较好的可解释性(comprehensibility),例如

f好瓜(x)=0.5x色泽+0.25x根蒂+0.15x敲生+0.1x形状

就可以很直观地看出选好的瓜考虑了几个方面以及每个方面的权重

我们会从回归任务开始,逐步讨论二分类和多分类

2.线性回归

“线性回归”(linear regression)试图学得一个线性模型以尽可能准确地预测实值输出标记

线性回归试图学习得到
f(xi)=wxi+b,使得f(xi)≈yi
f(xi)=wxi+b,使得f(xi)≈yi

现在关键问题是——如何衡量f(x)和yf(x)和y之间的差别。
之前提到过的均方误差是回归任务中最常用的性能指标,我们可以试图让均方误差最小。

2.1何为均方误差?

均方误差亦称平方损失(square loss),均方误差有着很好的几何意义,它对应了欧几里得距离,简称“欧式距离”,基于均方误差最小化来进行模型求解的方法称“最小二乘法”

2.2 最小二乘法

最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。
在这里插入图片描述
其中,令两式为零,求得w,b的闭式解为:
在这里插入图片描述
在这里插入图片描述
闭式解即为用参数表示的解

如果给定数据集D = {(x1, y1),(x2, y2),…,(xm, ym)},其中xi = (xi1; xi2;…;xid),xij代表第i个样本的第j个特征,yi是真实情况,y = (y1;y2;…;ym)T注意并不是我们划分的类型,(xm, ym)会是出现在样本空间中的某个点,我们要找到某个线将不同类的点区分开。样本个数是m个,由d个属性描述,类似于我之前写的西瓜的例子。我们试图学得
在这里插入图片描述
这称为“多元线性回归”。

2.3 何为多元线性回归?

**在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。**事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。因此多元线性回归比一元线性回归的实用意义更大。

多元线性回归估计方法

  • 普通最小二乘法
    普通最小二乘法(Ordinary Least Square, OLS)通过最小化误差的平方和寻找最佳函数。通过矩阵运算求解系数矩阵:
    当XTX为满秩矩阵或正定矩阵时,成立
    在这里插入图片描述
  • 广义最小二乘法
    广义最小二乘法(Generalized Least Square)是普通最小二乘法的拓展,它允许在误差项存在异方差或自相关,或二者皆有时获得有效的系数估计值。公式如右,
    在这里插入图片描述
    其中,Ω是残差项的协方差矩阵。

然而,现实生活中,XTX 往往不是满秩矩阵,即X的列数多于行数,此时可以解出多个w,它们都能使均方误差最小化,选择哪一个解作为输出,将由学习算法的归纳偏好(即模型在学习过程中对某种假设的偏好,称为归纳派偏好)决定,常见的做法是引入正则化。

如果让模型预测逼近y的衍生物呢?假设示例所对应的输出标记是在指数尺度上变化,那么即可将输出标记的对数作为线性模型逼近的目标,即:

在这里插入图片描述
如下图所示在这里插入图片描述
这种模型被称为“广义线性模型”,其中g( . )称为联系函数。
联系函数是指 :将联合分布函数与边缘分布函数联系起来的一个函数

3.对数几率回归

如果做的是分类任务怎么办呢? 我们可以用广义线性模型:即找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来
对于而分类任务:
我们要用到一个函数,单位阶跃函数
何为单位阶跃函数?
单位阶跃函数又称单位布阶函数目前有三种定义,共同之处是自变量取值大于0时,函数值为1;自变量取值小于0时,函数值为0,不同之处是,自变量为0时函数值各不相同。
在这里插入图片描述
(图片来自网络)
我们用的是中间那种在这里插入图片描述
但是单位阶跃函数不连续,所以我们要找一个连续并且单调可微的函数,即 对数几率函数在这里插入图片描述
对数几率回归的优点:

  1. 无需事先假设数据分布,避免了假设分布不准确所带来的问题
  2. 不仅预测出类别,还可以得到近似概率预测
  3. 对数几率回归函数求解的目标函数是任意阶可导的凸函数,有很好的数学性质,许多数值优化算法可以直接用于求取最优解

4.线性判别分析

线性判别分析(Linear Discriminant Analysis,简称LDA)
LDA原理:给定训练集样例,设法将样例投影到一条直线上,使得使得同类样列尽可能进,异样样例尽可能远:在对新样本进行分类时,将其投影到同样的这条线上,再根据投影点的位置来确定新样本的类别
在这里插入图片描述
(图片来自网络)
LDA分类的一个目标是使得不同类别之间的距离越远越好,同一类别之中的距离越近越好,所以我们需要定义几个关键的值。在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(图片来自网络)

参考:周志华《机器学习》

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
机器学习中,线性回归有多种模型可以使用。其中包括传统的线性回归模型和Lasso模型。 传统的线性回归模型是一种非常经典的方法,它通过拟合一个线性函数来预测因变量和自变量之间的关系。这个模型的数学原理可以通过最小二乘法来推导和求解。最小二乘法的目标是最小化预测值与实际观测值之间的残差平方和,从而得到最优的模型参数。\[1\] Lasso模型是一种用于处理多重共线性问题的算法。它通过对系数进行L1正则化来实现特征选择。L1正则化是指将系数的绝对值乘以一个正则化系数,使得一些特征的系数变为零,从而自动丢弃这些特征。Lasso模型在sklearn库中有相应的实现。\[2\] 线性回归是回归分析中最常用的方法之一,因为它比非线性模型更容易拟合,并且估计的统计特性也更容易确定。线性回归模型可以使用最小二乘法来求解,通过最小化残差平方和来得到最优的模型参数。\[3\] 综上所述,机器学习线性回归有多种模型可供选择,包括传统的线性回归模型和Lasso模型。这些模型可以通过最小二乘法和L1正则化来求解。 #### 引用[.reference_title] - *1* [机器学习——线性回归模型及python代码实现](https://blog.csdn.net/qq_43045620/article/details/123079305)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [【机器学习线性回归】多元线性回归模型的搭建+Lasso回归的特征提取](https://blog.csdn.net/qq_43018832/article/details/128103389)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [机器学习常用模型-线性回归模型详解(简单易懂)](https://blog.csdn.net/weixin_43308610/article/details/123346498)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

DFCED

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值