随机梯度下降法相对于批量梯度下降法的优点:
1.跳出局部最优解
2.更快的运行速度
批量梯度下降法,每次计算梯度使用全部样本,
随机梯度下降法,每次计算梯度使用一个样本。
import numpy as np
def J(x,y,theta):
try:
return np.sum((y-x.dot(theta))**2) / len(theta)
except:
return float("inf")
def dJ(x,y,theta):
return 2 * x.T.dot(x.dot(theta)-y)
def sgd(x,y,inital_theta,n_iter):
t0 ,t1 = 5 , 50
def learning_rate(t):
return t0 / (t + t1)
theta = inital_theta
for cur_iter in range(n_iter):
rand_i = np.random.randint(len(x))
gradient = dJ(x[rand_i],y[rand_i],theta)
theta = theta - learning_rate(cur_iter)*gradient
return theta
m = 10000
x = np.random.random(size=m)
X = x.reshape(-1,1)
y = 4.*x + 3. + np.random.normal(size=m)
X = np.hstack([np.ones((len(X),1)),X])
inital_theta = np.zeros(X.shape[1])
theta = sgd(X,y,inital_theta,n_iter=m//3)
随机梯度下降法中,学习率采用模拟退火法。
随着迭代次数的增多,而改变。
随机抽取样本,来计算梯度。
这里选用随机样本,选取总体的三分之一,来计算梯度。
得到的结果为
theta
array([3.04776308, 3.77108833])