头歌数据挖掘算法原理与实践:线性回归(房价预测)

第1关:线性回归算法思想

第2关:动手实现线性回归

线性回归算法流程

我们最终的目的是通过训练出来的线性回归模型对测试集数据进行预测,算法实现流程如下:

  1. 将x0=1加入训练数据
  2. 使用正规方程解求得参数
  3. 将x0=1加入测试数据
  4. 对测试集数据进行预测

第3关:衡量线性回归的性能指标

相关知识

为了完成本关任务,你需要掌握:

  1. 回归问题的评估指标;
  2. 均方误差 (MSE)
  3. 均方根误差 (RMSE)
  4. 平均绝对误差 (MAE)
  5. R-Squared
回归问题的评估指标

大家知道已经,机器学习通常都是将训练集上的数据对模型进行训练,然后再将测试集上的数据给训练好的模型进行预测,最后根据模型性能的好坏选择模型,对于分类问题,大家很容易想到,可以使用正确率来评估模型的性能,那么回归问题可以使用哪些指标用来评估呢?

MSE

MSE (Mean Squared Error) 叫做均方误差,公式如下:

m1​i=1∑m​(yi−pi)2

其中 yi表示第 i 个样本的真实标签,pi 表示模型对第 i 个样本的预测标签。线性回归的目的就是让损失函数最小。那么模型训练出来了,我们在测试集上用损失函数来评估模型就行了。

RMSE

RMSE(Root Mean Squard Error) 均方根误差,公式如下:

m1​i=1∑m​(yi−pi)2​

RMSE 其实就是 MSE 开个根号。有什么意义呢?其实实质是一样的。只不过用于数据更好的描述。

例如:要做房价预测,每平方是万元,我们预测结果也是万元。那么差值的平方单位应该是千万级别的。那我们不太好描述自己做的模型效果。怎么说呢?我们的模型误差是多少千万?于是干脆就开个根号就好了。我们误差的结果就跟我们数据是一个级别的了,在描述模型的时候就说,我们模型的误差是多少万元。

MAE

MAE (平均绝对误差),公式如下:

m1​i=1∑m​∣yi−pi∣

MAE 虽然不作为损失函数,确是一个非常直观的评估指标,它表示每个样本的预测标签值与真实标签值的L1距离。

R-Squared

上面的几种衡量标准针对不同的模型会有不同的值。比如说预测房价 那么误差单位就是万元。数子可能是 345 之类的。那么预测身高就可能是 0.10.6 之类的。没有什么可读性,到底多少才算好呢?不知道,那要根据模型的应用场景来。 看看分类算法的衡量标准就是正确率,而正确率又在 0~1 之间,最高百分之百。最低 0。那么线性回归有没有这样的衡量标准呢? R-Squared 就是这么一个指标,公式如下:

R2=1−∑i​(ymeani​−yi)2∑i​(pi−yi)2​

其中 ymean​ 表示所有测试样本标签值的均值。为什么这个指标会有刚刚我们提到的性能呢?我们分析下公式:

其实分子表示的是模型预测时产生的误差,分母表示的是对任意样本都预测为所有标签均值时产生的误差,由此可知:

  1. R2≤1,当我们的模型不犯任何错误时,取最大值 1

  2. 当我们的模型性能跟基模型性能相同时,取 0

  3. 如果为负数,则说明我们训练出来的模型还不如基准模型,此时,很有可能我们的数据不存在任何线性关系。

ps:(基准模型指的随机瞎猜。)

  • 21
    点赞
  • 39
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
系统化地阐述了数据挖掘和知识发现技术的产生、发展、应用和相关概念、原理算法。对数据挖掘中的主要技术分支,包括关联规则、分类、聚类、序列、空间以及Web挖掘等进行了理论剖析和算法描述。本书的许多工作是作者们在攻读博士学位期间的工作总结,一方面,对于相关概念和技术的阐述尽量先从理论分析入手,在此基础上进行技术归纳。另一方面,为了保证技术的系统性,所有的挖掘模型和算法描述都在统一的技术归纳框架下进行。同时,为了避免抽象算法描述给读者带来的理解困难,本书的所有典型算法都通过具体跟踪执行实例来进一步说明。本书共分8章,各章相对独立成篇,以利于读者选择性学习。在每章后面都设置专门一节来对本章内容和文献引用情况进行归纳,它不仅可以帮助读者对相关内容进行整理,而且也起到对本内容相关文献的注释性索引功能。第1章是绪论,系统地介绍了数据挖掘产生的商业和技术背景,从不同侧面剖析了数据挖掘的概念和应用价值;第2章给出了知识发现的过程分析和应用体系结构设计;第3章对关联规则挖掘的原理算法进行全面阐述;第4章给出分类的主要理论和算法描述;第5章讨论聚类的常用技术和算法;第6章对时间序列分析技术和序列挖掘算法进行论述;第7章系统地介绍了Web挖掘的主要研究领域和相关技术及算法;第8章是对空间数据挖掘技术和算法的分析和讲述。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值