统计学习的“回归”——各种回归(Regression)都是什么意思?(转)

本文转载自:http://blog.sina.com.cn/s/blog_7445c2940102wln5.html

对于定性了解“回归”有一定帮助,故转载收藏,以下为正文:

首先,特别要说明的是,本文偏重于定性分析,而不是定量的分析。文中涉及的大部分内容没有经过严格的论证和考证。在此,本文只是给出一些概念上的解释,以达到帮助理解的目的。如果,要具体了解模型形式还是要去翻翻书本。

----------------------------------------------分割线-----------------------------------------

回归(Regression)就像最小二乘(LS)一样,又是一个出镜率极高的​专业(晦涩)词汇。经常出现在各种领域,如机器学习的最小二乘线性回归,逻辑回归等等;系统辨识的自回归模型(AR)、移动平均自回归模型(ARMA)、ARMAX、NARMAX等等。可见回归是这么多算法的根基,那么到底什么是回归呢?

一.回归(Regression)

​从百度上找到了三种解释:

 

他这里面说的是回归分析的作用,可以用于模型拟合。同时,表明了回归的含义是让数据回归到模型中。总感觉这个解释有些牵强。

 

这里面说了回归这个词的由来(没考证过,就当是真的)。这里面少说了一个概念,就是所有人的平均身高。也就是随着一代一代的繁衍,孩子的平均身高会回归到所有人的平均身高的水平。

 

​这个解释是我觉得最靠谱的解释,合理的揭示了回归的含义——用观察使得认知接近真值的过程,回归本源。

​在我们认知(测量)这个世界的时候,我们并不能得到这个世界的全部信息(真值),只能得到这个世界展现出的可被我们观测的部分信息。那么,如果我们想得到世界的真值,就只能通过尽可能多的信息,从而使得我们的认识,无限接近(回归)真值

其中,真值的概念是一个抽象的概念(感觉是从统计学中给出的)。真值是真实存在于这个世界的,但是却又永远无法真正得到。因为,无论是受限于我们自身的认知水平,还是测量手段,都会存在偏差,导致无法得到真值。就像海森堡测不准原理一样,永远不可能知道一个确定的真值。再说的扯一点,真值就是我们中国人常说的

​二.回归分析(Regression analysis)

所谓回归分析,是分析自变量与因变量之间定量的因果关系,并且用回归方程描述。

结合上面所说的回归的含义,我们可以重新对回归分析进行解释。也就是,通过更多的数据(自变量和因变量),使得回归方程的参数更加准确,更能精确地描述自变量和因变量之间的关系。这里的真值是什么呢?就是自变量和因变量之间的关系。我们的认知又是什么呢?就是回归方程的参数。

而这里引入了一个新的概念——因果性。因果性关注的其实就是因和果之间的关系。那么回归分析完成的就是,让我们现有的认知无限接近因和果之间的关系。这里面的因果是一种空间上的因果,而时间上的因果可见后面的自回归(AR)。

由此,我们又可以看出,真值的表现可以通过关系的形式表现。它并不是存在那里的一个向量,而是描述向量之间的关系。就像我们的大脑一样,我们的大脑中并没有一个像电脑一样的存储介质​​来存储记忆。而是,通过数量众多的神经元,组成的繁杂的神经元网络中的联系(关系)来存储的

三.其他回归

3.1线性回归(linear Regression)

以线性形式描述回归方程。

3.2自回归(Auto Regression,AR)

因变量和自变量都为同一个​变量的回归方法(我一直好奇为什么不叫SelfRegression,还省得跟当下大火的增强现实搞混)。

----------------------------------------2016.9.16未完待续----------------------------------​

  • 32
    点赞
  • 61
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
多元线性回归是一种用于预测房屋价格的常用方法。它基于多个自变量与因变量之间的线性关系建立回归模型。在Python中,可以使用sklearn库的LinearRegression类来实现多元线性回归。 岭回归是对多元线性回归的一种正则化方法。它通过引入一个正则化项,可以在模型训练过程中对自变量的系数进行约束,从而避免过拟合的问题。在Python中,可以使用sklearn库的Ridge类来实现岭回归。 Lasso回归也是对多元线性回归的一种正则化方法,与岭回归类似,但它使用的是L1正则化。Lasso回归不仅可以约束自变量的系数,还可以用于特征选择,将不重要的特征的系数推向零。在Python中,可以使用sklearn库的Lasso类来实现Lasso回归。 使用这些方法进行房屋价格预测的步骤大致相同。首先,将房屋的特征作为自变量,房屋价格作为因变量,构建多元回归模型。然后,根据数据集中的房屋特征和对应的价格,利用模型进行训练。最后,可以使用训练好的模型对新的房屋特征进行预测,得到对应的价格。 需要注意的是,为了得到准确的预测结果,应该对数据进行适当的预处理,例如特征缩放、数据清洗和特征选择等。此外,还应该通过交叉验证等方法,选择适当的模型超参数,以避免过拟合或欠拟合的问题。 总的来说,多元回归、岭回归和lasso回归都是常用的预测房屋价格的方法,使用Python中的相应库可以方便地实现这些方法。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值