回归模型-简单线性回归

本文介绍了线性回归模型的基本概念,包括一元线性回归和多元线性回归的公式,并阐述了如何通过最小二乘法寻找最优参数。讨论了实际数据可能的非线性问题以及模型诊断指标R2。此外,还提到了过度拟合问题和解决策略,如正则化。同时,概述了线性回归模型的几个关键假设。
摘要由CSDN通过智能技术生成

在一个回归模型中,我们需要关注或预测的变量叫做因变量,我们选取的用来解释因变量变化的变量叫做自变量。

一元线性回归模型

y=w0+w1x+ε,其中w0,w1为回归系数,ε为随机误差项,假设ε~N(0,σ2),则随机变量y~N(w0+w1x,σ2)。

面对一个具体问题,给定样本集合D={(x1,y1),…,(xn.yn)},我们的目标是找到一条直线y=w0+w1x使得所有样本点尽可能落在它的附近。

数据模型为 ( w 0 ^ , w 1 ^ ) = a r g m i n ( w 0 ^ , w 1 ^ ) ∑ i = 1 n ( y i − w 0 − w 1 x i ) 2 (\hat{w_{0}},\hat{w_{1}})=arg min_{(\hat{w_{0}},\hat{w_{1}})}\sum_{i=1}^{n}(y_{i}-w_{0}-w_{1}x_{i})^{2} (w0^,w1^)=argmin(w0^,w1^)i=1n(yiw0w1xi)2
在这里插入图片描述

多元线性回归模型

y=w0x0+w1x1+w2x2+…+wdxd

y=wTx+ε,其中x=(x1,x2,…,xd)为自变量,w=(w1,w2,…,wd)为回归系数。

假设将训练集中的输入特征部分记为n*d维矩阵X,矩阵第一列值全为1,训练数据的输出特征部分写成向量形式y=(y1,y2,…,yn)T
在多元线性模型中,输入X对应的模型输出为
y ^ = X w \hat{y}=Xw y^=Xw
在这里插入图片描述

线性回归的问题

实际数据可能不是线性的
●使用R2等指标进行模型诊断,R2越接近1,证明模型拟合的越好。
在这里插入图片描述
多重共线性
●正则化、主成分回归、偏最小二乘回归
过度拟合问题
当模型的变量过多时,线性回归可能会出现过度拟合问题。假如在房价预测问题中,假设x表示房屋面积,如果将x2,x3等作为独立变量可能出现以下情况
在这里插入图片描述

简单线性回归通常对模型作了以下假设:
1.输入特征是非随机的且互相不相关;
2.随机误差具有零均值,同方差的特点,且彼此不相关;
3.输入特征与随机误差不相关;
4.随机误差项服从正态分布N(0, σ2 ).

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值