线性回归与岭回归

最新推荐文章于 2024-05-01 14:22:45 发布

Swayzzu

最新推荐文章于 2024-05-01 14:22:45 发布

阅读量4.8k

点赞数 3

分类专栏：机器学习基础文章标签：线性代数机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Swayzzu/article/details/120357387

版权

机器学习基础专栏收录该内容

10 篇文章 1 订阅

订阅专栏

目录

一、什么是线性回归

1.线性回归简述

2.数组和矩阵

3.线性回归的算法

二、权重的求解

三、线性回归案例

4.数据标准化

6.回归性能评估

7.梯度下降与正规方程区别

四、岭回归Ridge

1.过拟合与欠拟合

一、什么是线性回归

1.线性回归简述

线性回归，是一种趋势，通过这个趋势，我们能预测所需要得到的大致目标值。线性关系在二维中是直线关系，三维中是平面关系。

我们可以使用如下模型来表示线性回归：y = wx+b（w是权重，x是特征，b是偏置项）

当有多个特征时，线性关系模型如下图所示：

2.数组和矩阵

数组

数组可以是多维的，各个维度的数组表示如下：

0维：5

1维：[1,2,5,5,4,8]

2维：[[1,4,5],[1,4,7]]

3维：[[[1,4,5],[1,4,7]],[[1,4,5],[1,4,7]]]

数组运算有加法，乘法。具体计算可以在python中尝试，数组是ndarray类型。3.

矩阵

矩阵特点：必须是二维，矩阵的运算满足了特定的需求。我们可以仅仅通过1步的矩阵乘法，就得出w1*x1+w2*x2+w3*x3这样模型的结果。

矩阵乘法的要求会涉及到矩阵的形状要求：m*n的矩阵 * n*p的矩阵，结果是m*p的矩阵

也就是说，第一个矩阵的列数，必须要和第二个矩阵的行数相同。

3.线性回归的算法

线性回归是一种迭代的算法。我们需要建立一个函数，对于每一个特征x(i)都有一个对应的权重w(i)，两者相乘，并最终把所有的特征权重乘积求和，就是我们的目标结果。但如何寻找到最佳的权重，从而使得模型能够最好地拟合我们的样本呢？

线性回归的迭代算法的每次迭代，都会更新权重w(i)的值，使模型往靠近样本点的地方更加靠近，而损失函数，就是我们用来求得最佳权重的函数。

损失函数定义如下：

损失意思就是预测的各个目标值，与各个原目标值的差的平方和（误差平方和）。损失越小也就是预测值与原值越接近，效果越好。该方法也称为最小二乘法。当损失函数达到最小值时，所对应的权重w，就是我们的目标权重。

二、权重的求解

1.正规方程

是求权重w的一种方法，适用于特征少的数据。用的比较少。

2.梯度下降

该方法通过指定学习率，并利用梯度，迭代更新权重。通常都使用这个方法。

正规方程API：sklearn.linear_model.LinearRegression()

梯度下降API：sklearn.linear_model.SGDRegressor()

两个算法都可以通过.coef_得到回归系数，学习率是一个超参数，也可使用网格交叉验证进行调优。

三、线性回归案例

1.案例概述

通过从sklearn中获取的“波士顿房价预测”数据进行房价预测，特征有很多，比如该镇的人均犯罪率、一氧化氮浓度、低收入人群占比等。我们对每一个特征都给出一个权重，通过算法，求得最佳的权重即可。

2.数据获取

导入数据代码：from sklearn.datasets import load_boston

代码：lb = load_boston()

3.数据分割

代码：x_train, x_test, y_train, y_test = train_test_split(lb.data, lb.target, test_size=0.25)

4.数据标准化

此处的数据，需要对特征数据以及目标值数据都进行标准化，并且需要用不同的标准。

导入标准化方法:from sklearn.preprocessing import StandardScaler

x实例化方法：std_x = StandardScaler()

y实例化方法：std_y = StandardScaler()

标准化：

x_train = std_x.fit_transform(x_train)

x_test = std_x.transform(x_test)

y_train = std_y.fit_transform(y_train)

y_test = std_y.transform(y_test)

5.模型训练

注意，训练后得出的目标值，是标准化后的，因此需要使用StandardScaler中的inverse_transform进行转换回原来的值。

实例化算法：lr = LinearRegressor()

将数据转为二维：y_train = y_train.reshape(-1,1)

训练算法：lr.fit(x_train, y_train)

预测结果：y_predict = lr.predict(x_test)

结果转为正常结果：y_lr_predict = std.inverse_transform(y_predict)

6.回归性能评估

通过对预测值也真实值计算均方误差可得，API中，输入真实目标值，以及预测目标值即可（注意：输入的都是标准化之前的值。

API：sklearn.metrics.mean_squared_error(y_true, y_pred)

线性回归性能评估：mean_squared_error(y_test, y_lr_predict)

以上为使用线性回归算法，对房价进行的预测。其他的算法，具体操作基本一致。

7.梯度下降与正规方程区别

特点：线性回归器是最为简单、易用的回归模型。从某种程度上限制了使用，尽管如此，在不知道特征之间关系的前提下，我们仍然使用线性回归器作为大多数系统的首要选择。

小规模数据可以使用LinearRegression(不能解决拟合问题)以及其它

大规模数据需要使用梯度下降法，SGDRegressor

四、岭回归Ridge

1.过拟合与欠拟合

欠拟合：一个假设在训练数据上不能获得更好的拟合，但是在训练数据外的数据集上也不能很好地拟合数据，此时认为这个假设出现了欠拟合的现象。(模型过于简单)

解决方法：增加特征

过拟合：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在训练数据外的数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。(模型过于复杂)

解决方法：正则化

2.正则化

L2正则化是通过减少权重的方式，对模型进行优化，以解决过拟合的问题。该方法可以使得权重的每个元素都非常接近于0，参数变小，则模型变简单。从而达到解决过拟合问题的效果。

岭回归就是带有正则化的线性回归。

岭回归API:sklearn.linear_model.Ridge

正则化中，alpha（或者lambda）越大，说明对参数的惩罚越大，参数就越趋近于0。

岭回归优点：回归得到的回归系数更符合实际，更可靠。另外，能让估计参数的波动范围变小，变的更稳定。在存在病态数据偏多的研究中有较大的实用价值。

关注

3
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
线性回归与岭回归

线性回归：一种能预测的趋势线性关系，在二维中是直线关系，三维中是平面关系线性关系定义：y = wx+bb是为了对于单个特征的情况更加通用多个特征：w1*特征1+w2*特征2+b线性关系模型如上所示。数组和矩阵的区别0维数组：51维：[1,2,5,5,4,8]2为：[[1,4,5],[1,4,7]]3维：[[[1,4,5],[1,4,7]],[[1,4,5],[1,4,7]]]数组运算：加法，乘法矩阵：必须是二维。满足了特定的运算需求，矩..
复制链接

扫一扫

专栏目录

Swayzzu CSDN认证博客专家 CSDN认证企业博客

码龄3年

103: 原创

31万+: 周排名

73万+: 总排名

12万+: 访问

: 等级

1140: 积分

28: 粉丝

58: 获赞

37: 评论

420: 收藏

私信

关注

热门文章

分类专栏

CV 18篇
NLP 32篇
知识图谱 1篇
机器学习基础 10篇
深度学习 26篇
数据结构笔记 7篇
opencv 3篇
MySQL 4篇
Linux 3篇

最新评论

PyTorch自建数据集+可视化结果
Swayzzu: 你调试一下，打断点到这个位置看看，意思是这个地方应该是一个可迭代的对象（比如list类型之类的），但发现这个对象是个None，没法迭代
PyTorch自建数据集+可视化结果
学习成长记: 我在进行数据集导入时，出现错误：TypeError Traceback (most recent call last) Cell In[7], line 1 ----> 1 train_dataset = InfrasoundDataset('dataset',256, 'train') 2 val_dataset = InfrasoundDataset('dataset',256, 'val') 3 test_dataset = InfrasoundDataset('dataset',256, 'test') Cell In[6], line 15, in InfrasoundDataset.__init__(self, root, resize, mode) 12 self.name2label[name] = len(self.name2label.keys()) 13 # print(self.name2label) 14 # 加载或创建CSV文件并存储数据 ---> 15 self.images, self.labels = self.load_csv('Raw_TIFs.csv') 17 # 取train, val, test数据集 18 if mode=='train': TypeError: cannot unpack non-iterable NoneType object。请问这个是为什么？
KBQA-Bert学习记录-CRF模型
Swayzzu: 建议调试检查下维度吧，看看是哪一行报的，然后断点打到那行，看看维度最后一个是不是10，代码预期是5
KBQA-Bert学习记录-CRF模型
qq_54412326: ValueError: expected last dimension of emissions is 5, got 10大佬，报错这个想问一下时什么问题呢
时间复杂度-主定理分析
狼堡你灰叔371: 虽然不太专业但是做题的话真是个小妙招给你点赞

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。