一.线性回归算法推导
找到最合适的一条线(想象一个高维)来最好的拟合我们的数据点。
举例:去银行借款,存在共三个变量(年龄、工资、贷款金额),假设是年龄的参数,是工资的参数
拟合的平面:
(是偏置项)整合:
(偏置项 需要在原数据中加一列全部为1进行运算)
矩阵形式:把方程运算转换为矩阵运算,因矩阵运算比较高效
1.误差项分析
误差:真实值和预测值之间存在的差异,符号
对于每个样本:
(1)式
误差性质:独立、同分布、服从均值为0方差为的高斯分布
独立:张三与李四都去银行贷款,他俩没有关系
同分布:两人都去同一家银行
高斯分布(正太分布):银行可能多给,也可能少给,但绝大多数情况下浮动不会太大
(2)式
将(1)式带入(2)式:
误差项替换:根据误差的高斯分布性质,把分布函数中的误差项用预测值与真实值代替
2.似然函数求解
似然函数:
解释:概率密度函数的似然函数(概率密度函数:是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。而随机变量的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分)
对数似然:
解释:乘法难解,加法容易
参数的极大似然估计:参数估计一般用参数的极大似然估计求解
3.目标函数推导
目标:让似然函数越大越好
目标函数:
(最小二乘法,也是让似然函数最大后提出的一个决定公式)
求偏导:
目标函数:让似然函数越大越好
求偏导
4.线性回归求解
偏导等于0:
偏导等于0
5.评估方法
: