线性回归家族-概述

回归是一种应用广泛的预测建模技术,这种技术的核心在于预测的结果是连续型变量。
KNN这样的分类算法的预测标签是分类变量量,多以{0,1}来表示,而无监督学习算法比如KMeans并不求解标签,注意加以区别。
回归算法源于统计学理理论,它可能是机器器学习算法中产生最早的算法之一,其在现实中的应用非常广泛,包括使用其他经济指标预测股票市场指数,根据喷射流的特征预测区域内的降水量,根据公司的广告花费预测总销售额,或者根据有机物质中残留的碳-14的量来估计化石的年龄等,只要一切基于特征预测连续型变量的需求,都使用回归技术。
线性回归源于统计分析,是结合机器学习与统计学的重要算法。通常来说,统计学注重先验,而机器学习看重结果,因此,机器学习中不会提前为线性回归排除共线性等可能会影响模型的因素,反而会先建立模型以查看效果。模型确立之后,如果效果不好,就根据统计学的指导来排除可能影响模型的因素。
本文从机器器学习的角度来讲解回归类算法,如果希望理解统计学角度,各种统计学教材都可以满足你的需求。
回归需求在现实中非常多,所以自然也有各种各样的回归类算法。最著名的就是线性回归和逻辑回归,从他们衍生出了岭回归,Lasso,弹性网,除此之外,还有众多分类算法改进后的回归,比
如回归树,随机森林林的回归,支持向量量回归,贝叶斯回归等。除此之外,还有各种鲁棒的回归:比如RANSAC,Theil-Sen估计,胡贝尔回归等。考虑到回归问题在现实中的泛用性,回归家族可以说是非常繁荣昌盛,家大业大了。
回归类算法的数学原理相对简单。通常,理解线性回归可以有两种角度:矩阵的角度和代数的角度。几乎所有机器学习的教材都是从代数的角度来理理解线性回归的,其内容简单,很容易理解。相对的,机器学习中有名的教材都缺乏比较系统地使用矩阵来解读算法的角度,因此在后续博文中,将使用矩阵方式(线性代数的方式)展现回归大家族的面貌。
看完本文之后,需要对线性模型有个相对全面的了解。后续博文将学习多元线性回归,了解其数学过程并使用回归类模型的评估指标来评估它。然后,将了解多元线性回归的一些问题,学习如何改进多元线性回归,最后,将学习如何提升多元线性回归的表现。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值