线性回归是基于误差是正态分布的假设
假设样本特征与目标结果成线性关系,利用初中线性方程: y=ax+b ,引入基本概念:
- 自变量: x 是自变量,对应实际问题中的特征,一般特征有多维,所以实际中一般标识为
(x1,x2,x3....xn) ,其中 x1,x2,x3....xn 对应现实中的每个特征 - 因变量:目标 y 是根据自变量
x 改变而改变的,所以叫做因变量 - 参数:方程中 a和b 被叫做参数
现实中假设样本特征有 n 维,样本个数有
- y(i) :表示第 i 个样本的目标值,注意不是模型训练出来预测的值
-
x(i) :表示第 i 个样本的特征值,为一个向量(x1,x2,x3....xn) - θ :表示参数的集合,为一个向量 (θ0,θ1,θ2....θn) ,注意参数针对不同样本是相同的,而自变量 x(i) 和因变量 y(i) 是根据样本变化的
- hθ(x) :表示为目标函数,即自变量与因变量之间的映射关系,也叫做模型
根据上面定义,写出线性模型的一般形式:
hθ(x(i))=θ0∗1+θ1∗x1+θ2∗x2+...+θn∗xn
注意我们在这里对特征