【学习任务】
- 线性回归损失函数的极大似然推导:西瓜书公式3.4除了用最小二乘法以外,怎么用极大似然推得?
- 一元线性回归的参数求解公式推导:西瓜书公式3.7和3.8怎么推来的?
- 多元线性回归的参数求解公式推导:西瓜书公式3.10和3.11怎么推来的?
- 线性回归损失函数的最优化算法:什么是批量梯度下降、随机梯度下降、小批量梯度下降?
问题1:对于连续目标函数的学习问题,当误差服从正态分布,而且在没有任何先验知识的条件下,最大似然估计与最小均方误差是等价的,因此可以用最大似然估计来求解公式3.4,如下:
给定数据集D={(x1,y1),(x2,y2),...,(xn,yn)};记样本为,对样本的预测为,该记法表示该预测依赖于参数的选取。我们有,其中,是一个误差函数,假设服从正态分布即,因此有,即,要求的极大似然估计,也就是说我们现在得到的这个真实存在的y在不同的取值下出现概率最大,我们来看这个概率,令,为了简化计算,令,要让最大,即求最大,即让取得最小值,当样本模型选择线性模型y=wx+b时,即求的最小值;
参考链接:
https://www.cnblogs.com/diegodu/p/5725139.html
问题2:
问题3:
求导公式:
https://en.wikipedia.org/wiki/Matrix_calculus#Vector-by-vector
问题4:
批量梯度下降法是最原始的形式,它是指在每一次迭代时使用所有样本来进行梯度的更新;
随机梯度下降法不同于批量梯度下降,随机梯度下降是每次迭代使用一个样本来对参数进行更新。使得训练速度加快。
小批量梯度下降,是对批量梯度下降以及随机梯度下降的一个折中办法。其思想是:每次迭代 使用 ** batch_size** 个样本来对参数进行更新。
参考链接: