误差项定义
假定拟合的平面:,其中是偏置项,控制平面的上下浮动。实际代码中,可能添加一列全1的列,便于矩阵计算:。
真实值和预测值之间存在误差,对于每个样本:
特点:
误差是独立且具有相同的分布,并且服从均值为0、方差为的高斯分布。
①误差服从高斯分布:
②预测值与误差:
由①②有:
上式即为,找一个,它与组合完之后,与真实值越接近越好,即它俩组合完后成为真实值的可能性越大越好。
(以贷款举例)
独立:张三和李四一起来贷款,但他俩不认识、没关系
同分布:他俩都来到同一家银行
高斯分布:银行可能多给、可能少给,但大多数情况下这个浮动不会太大,极小的情况下浮动会比较大
似然函数
累乘前提:独立同分布;希望用的数据越多,结果越准确。通过似然函数(不关心似然函数值),找到极大值点。
推导得出 最小二乘法:
目标函数求解:
tips:
①必然为一个对称阵;
②若是对称阵,则;
梯度下降
机器学习常规套路:是交给机器一堆数据,然后告诉它什么样的学习方式是对的(目标函数),然后让它朝着这个方向去做。
学习过程中的优化:要一步步的完成迭代。
更新参数:
① 找到当前最合适的方向
② 走一小步
③ 按照方向和步伐去更新参数
批量梯度下降:容易得到最优解,但由于每次考虑所有样本,速度很慢。
, 表示第 个数据, 表示第 列
随机梯度下降:每次找一个样本,迭代速度快,但不一定每次都朝着收敛方向。
小批量梯度下降:每次更新一小部分数据来算。