使用误差平方和来作为目标函数,因为假定随机误差服从高斯分布
训练集的似然函数为
两边取对数后得到对数似然函数
想让对数似然函数最大,就是让红框内的值最小,红框内是最小二乘因此将最小二乘视为目标函数。
在参数更新中,根据这个目标函数的梯度来进行梯度下降计算。
通过在目标函数后加正则项来避免过拟合,
SGD和BGD的区别是SGD每次随机使用一个训练样本进行参数的迭代,BGD每次使用所有的训练样本进行迭代,当训练集很大时,BGD训练一次的速度很慢。
逻辑回归是二分类算法,将线性回归的值带入sigmoid函数,跟阈值比较来进行分类,逻辑回归的梯度:
在形式上与线性回归的形式是一样的。
ps:特征选择后如果得到共线性特征时可以增加样本数据量或者剔除一些不重要的项。