simple linear regression详解

本文详细介绍了简单线性回归的概念,包括自变量与因变量、线性回归方程的求解、误差分析以及假设检验。通过最小均方误差准则确定回归方程,并探讨了相关系数、R方等参数的意义。文章强调,相关性不等于因果关系,且r值受极端样本点影响。最后提到了t分布和F分布假设检验在评估线性关系中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这里主要是想详细说明一下有关linear regression的知识,包括其中蕴含的数学知识和计算过程,为自己今后学习打下基础,也希望分享给需要的人。部分图片与公式来源于网上。
首先说明什么是simple linear regression,

一个变量x,中文叫自变量吧,英文:predictor,explantory,independent variable

另一个变量y,中文为因变量,英文:response,outcome,dependent variable

当然这里都是统计意义上的,所以说是自变量与因变量也不是很合适,我们还是用英文表示。形式上就是Y=B0+B1*X

一般在拿到数据的时候,先用matlab或者其他软件画出散点图,如下图,肉眼看一下是否具有线性关系。
图片引用网上

下面我们首先看看如何利用这些样本点,做出一个比较好的线性回归方程,也就是求出B0,B1的最优值。

这里我们假设利用样本点得到的最优方程为:
这里写图片描述
这里采用小写表示是样本值,那么为了衡量这个估计是否是好的,定义如下参数预测误差(prediction error,residual error):
这里写图片描述
通常情况下我们采用均方误差最小准则(least squares criterion)来确定回归方程(当然也有别的)。公式如下:
这里写图片描述
这个Q函数以b0和b1为自变量的函数,即将方程参数求解问题转化为求该函数取最小值时,对应的自变量的值的问题。
第一种方法想到求偏导,然后另偏导数为0,得到解,为了显示基础性我还是手写以下计算过程:
这里写图片描述
下面我们来进一步从预测误差来讨论,下面公式与之前多了一个期望值,其实很好理解,我们在回归分析的时候用的是样本y,并且把它当做是总体的期望

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值