使用已知样本集通过训练得到由属性线性组合的函数来进行预测。
其一般形式为:y=wx+b
x:为样本属性
w:为每个属性的权值
b:为偏置值
线性回归一般有三个重要模块
1.映射函数:直线、多项式、高斯分布、对数几率回归等
2.代价函数:平方和误差函数
3.求解最小值方法:梯度下降、拟牛顿法、模拟退火等求解损失函数的最小值
映射函数为了解决数据不是线性分布的问题将数据进行升维或者降维,可以通过对数据的观测来确定,其可能将某个特征平方或者多次方通过代价函数来确定w和b。如:
y=w1x1+w2x2+w3x3+b或
y=w1x1*x1+w2x2+w3x3
y= wf(x)+b:这里的f(x),x为样本的特征值,函数为用来映射样本的函数高斯或者对数等
代价函数主要使用平方误差函数,其使用的实际来自于极大似然法(具体推论后续解释)
平方误差函数:
f(xi):为训练得到的模型
yi:为样本对应的实际数值
若要使模型准确则其平方误差函数应该尽可能的小
下面介绍具体使用
如线性回归试图学得的模型为: