在上一篇逻辑回归中,我们利用批量梯度下降算法BGD求解使损失函数J(θ)取得最小值的θ,同时也提到了SGD和MBGD,本篇我们实现下这三个算法,并进行简单比较。关于梯度下降算法的原理可以参考https://www.cnblogs.com/pinard/p/5970503.html。
1. 批量梯度下降法(Batch Gradient Descent)
批量梯度下降算法是梯度下降算法的最常用形式,即在更新参数时利用所有的样本来进行更新,参数的更新过程可写成:
BGD.gif
由于有m个样本,所以求梯度的时候就用了所有m个样本的梯度数据。
BGD的Python实现
def BGD_LR(data_x, data_y, alpha=0.1, maxepochs=10000, epsilon=1e-4):
xMat = np.mat(data_x)
yMat = np.mat(data_y)
m,n = xMat.shape
weights = np.ones((n,1)) #初始化模型参数
epochs_count = 0
loss_list = []
epochs_list = []
while epochs_count < maxepochs:
loss = cost(xMat,weights,yMat) #上一次损失值
hypothesis = sigmoid(np.dot(xMat,weights)) #预测值
error = hypothesis -yMat #预测值与实际值误差