4.ESL笔记:线性回归方法(1)——线性模型&最小二乘

本文介绍了线性模型的基本概念,强调其在机器学习和统计中的重要性。通过最小二乘法,文章详细阐述了如何寻找最佳线性拟合,包括残差平方和的计算和几何解释。文中还探讨了线性模型的优化问题,如矩阵的秩和正定性,以及在数据处理中的注意事项。
摘要由CSDN通过智能技术生成

(注:上一篇读书笔记对应翻译到原文的章节2.5。笔者自己翻阅了一下2.6~2.9节的内容,觉得有点絮叨,而且翻译起来也不够直白清爽,所以打算跳过了。这一篇从原书第三章开始,阐述线性模型。笔者自己看完原书对应的内容觉得对最小二乘有更深的认识了,希望看到这篇文章的别人也如此。)

简介

线性模型一般假设回归模型 E(Y|X) E ( Y | X ) 是输入 X1,...,Xp X 1 , . . . , X p 的线性函数。线性模型在电脑诞生之前就已经存在了。他们非常简单,而且解释起输入与输出的关系也比较明了,有时它们的表现甚至会比一些非线性模型更好。这一章主要讲解用于回归的线性模型。大家会发现,很多非线性模型都是线性模型的适当延伸。

线性回归模型和最小二乘法

像之前讨论过的,假设我们有一个输入向量 XT=(X1,X2,...,Xp) X T = ( X 1 , X 2 , . . . , X p ) ,然后想要预测一个实数输出 Y Y 。线性模型一般具有如下的形式:

f ( X ) = β 0 + j = 1 p X j β j

当我们用线性模型解决问题的时候,我们一般潜意识有这么两种可能的假设:要么假设回归函数 E(Y|X) E ( Y | X ) 是线性的,要么假设线性模型是对我们问题一个较好的近似。 βj β j 在这里属于未知参数,输入 Xj X j 则可以来源于很多地方,比如:

  • 量化了的输入值;
  • 量化输入值的变形,比如log、平方根、平方等;
  • 编码过的定性输入;
  • 原始输入值的组合,比如 X3=X1X2 X 3 = X 1 X 2

但始终不变的一点是:模型对于任何一个输入值都是线性的

一般,当我们有一组训练数据来寻找合适的 β β 之后,我们需要有一个估计方法来衡量好坏。这里又要讲到最小二乘法了。令 β=(β0,β1,...,βp)T β = ( β 0 , β 1 , . . . , β p ) T ,那么最小二乘的残差平方和可以写成:

RSS(β)=i=1N(yif(xi))2=i=1N(yiβ0j=1pxijβj)2 R S S ( β ) = ∑ i = 1 N ( y i − f ( x i ) ) 2 = ∑ i = 1 N ( y i − β 0 − ∑ j = 1 p x i j β j ) 2

从统计学角度而言,如果我们的训练数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值