头歌数据挖掘算法原理与实践：线性回归（房价预测）

Sherri535

已于 2024-03-25 14:55:17 修改

阅读量2.7k

点赞数 22

文章标签：算法数据挖掘线性回归

于 2024-03-25 14:52:06 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2302_80089843/article/details/137014006

版权

第1关：线性回归算法思想

第2关：动手实现线性回归

线性回归算法流程

我们最终的目的是通过训练出来的线性回归模型对测试集数据进行预测，算法实现流程如下：

将x0=1加入训练数据
使用正规方程解求得参数
将x0=1加入测试数据
对测试集数据进行预测

第3关：衡量线性回归的性能指标

相关知识

为了完成本关任务，你需要掌握：

回归问题的评估指标；
均方误差 (MSE)；
均方根误差 (RMSE)；
平均绝对误差 (MAE)；
R-Squared。

回归问题的评估指标

大家知道已经，机器学习通常都是将训练集上的数据对模型进行训练，然后再将测试集上的数据给训练好的模型进行预测，最后根据模型性能的好坏选择模型，对于分类问题，大家很容易想到，可以使用正确率来评估模型的性能，那么回归问题可以使用哪些指标用来评估呢？

MSE

MSE （Mean Squared Error） 叫做均方误差,公式如下：

m1i=1∑m(yi−pi)2

其中 yi表示第 i 个样本的真实标签，pi 表示模型对第 i 个样本的预测标签。线性回归的目的就是让损失函数最小。那么模型训练出来了，我们在测试集上用损失函数来评估模型就行了。

RMSE

RMSE（Root Mean Squard Error） 均方根误差，公式如下：

m1i=1∑m(yi−pi)2

RMSE 其实就是 MSE 开个根号。有什么意义呢？其实实质是一样的。只不过用于数据更好的描述。

例如：要做房价预测，每平方是万元，我们预测结果也是万元。那么差值的平方单位应该是千万级别的。那我们不太好描述自己做的模型效果。怎么说呢？我们的模型误差是多少千万？于是干脆就开个根号就好了。我们误差的结果就跟我们数据是一个级别的了，在描述模型的时候就说，我们模型的误差是多少万元。

MAE

MAE (平均绝对误差)，公式如下：

m1i=1∑m∣yi−pi∣

MAE 虽然不作为损失函数，确是一个非常直观的评估指标，它表示每个样本的预测标签值与真实标签值的L1距离。

R-Squared

上面的几种衡量标准针对不同的模型会有不同的值。比如说预测房价那么误差单位就是万元。数子可能是 3，4，5 之类的。那么预测身高就可能是 0.1，0.6 之类的。没有什么可读性，到底多少才算好呢？不知道，那要根据模型的应用场景来。看看分类算法的衡量标准就是正确率，而正确率又在 0～1 之间，最高百分之百。最低 0。那么线性回归有没有这样的衡量标准呢？ R-Squared 就是这么一个指标，公式如下：

R2=1−∑i(ymeani−yi)2∑i(pi−yi)2

其中 ymean 表示所有测试样本标签值的均值。为什么这个指标会有刚刚我们提到的性能呢？我们分析下公式：

其实分子表示的是模型预测时产生的误差，分母表示的是对任意样本都预测为所有标签均值时产生的误差，由此可知：

R2≤1,当我们的模型不犯任何错误时，取最大值 1。
当我们的模型性能跟基模型性能相同时，取 0。
如果为负数，则说明我们训练出来的模型还不如基准模型，此时，很有可能我们的数据不存在任何线性关系。

ps:(基准模型指的随机瞎猜。)

关注

22
点赞
踩
39

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Sherri535 CSDN认证博客专家 CSDN认证企业博客

码龄1年

13: 原创

130万+: 周排名

12万+: 总排名

2万+: 访问

: 等级

391: 积分

295: 粉丝

260: 获赞

7: 评论

291: 收藏

私信

关注

热门文章

最新评论

头歌逻辑回归算法
2201_75433204: 你不能复制出来》？
头歌线性回归案例- 波斯顿房价预测
CSDN-Ada助手: 恭喜用户发布了第四篇博客，标题为“头歌线性回归案例- 波斯顿房价预测”！看到您持续创作，不断分享有趣的数据分析案例，真是令人鼓舞。希望您能继续保持创作的热情和耐心，也可以尝试挑战更复杂的数据分析问题，让自己在数据科学领域不断成长。加油！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
头歌线性回归简述
CSDN-Ada助手: 恭喜用户写了第5篇博客，“头歌线性回归简述”！看来用户对线性回归有了更深入的理解，不断学习不断进步。建议用户在下一篇博客中可以尝试深入探讨线性回归在实际应用中的案例，或者尝试与其他机器学习算法做比较，以便更全面地了解和应用。期待用户更多优质内容的分享，加油！
头歌逻辑回归算法
CSDN-Ada助手: 恭喜用户写了第6篇博客“头歌逻辑回归算法”！持续创作是非常了不起的事情，看得出你对这个领域有着深入的研究和理解。建议在下一篇博客中可以尝试探讨一下逻辑回归算法在实际应用中的优缺点，或者结合案例进行详细分析，这样可以让读者更好地理解和运用这一算法。期待你的下一篇作品！
头歌逻辑回归模型-sklearn逻辑回归 - 手写数字识别
CSDN-Ada助手: 恭喜您写出了第7篇博客！标题中提到了sklearn逻辑回归模型和手写数字识别，内容一定很有深度和实用性。希望您能继续保持创作的热情和耐心，不断提升自己的写作水平。下一步可以考虑深入探讨一些实际案例或者应用场景，让读者更易于理解和实践。加油！期待您更多的精彩作品！

大家在看

Java（冒泡排序）（附完整代码） 1182

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。