分别对上述的MSE表达式(乘以1/2后)中的k,b求偏导,
∂
1
2
M
S
E
∂
b
=
∑
i
=
1
m
(
k
x
i
b
−
y
i
)
m
\frac{∂ \frac{1}{2}MSE}{∂b}=\sum_{i=1}^m\frac{(kx_i+b-y_i)}{m}
∂b∂21MSE=∑i=1mm(kxi+b−yi)
∂
1
2
M
S
E
∂
k
=
∑
i
=
1
m
(
k
x
i
b
−
y
i
)
x
i
m
\frac{∂ \frac{1}{2}MSE}{∂k}=\sum_{i=1}^m\frac{(kx_i+b-y_i)x_i}{m}
∂k∂21MSE=∑i=1mm(kxi+b−yi)xi
更新b和k时,使用原来的b,k值分别减去关于b、k的偏导数与学习率的乘积即可。至于为什么使用减号,可以这么理解:以斜率k为例,当其导数大于零的时候,则表示均方误差随着斜率的增大而增大,为了使均方误差减小,则不应该使斜率继续增大,所以需要使其减小,反之当偏导大于零的时候也是同理。其次,因为这个导数衡量的是均方误差的变化,而不是斜率和截距的变化,所以这里需要引入一个学习率,使得其与偏导数的乘积能够在一定程度上起到控制截距和斜率变化的作用。
def gradient\_descent(x_data, y_data, b, k, learning_rate, n_iterables):
m = len(x_data)
# 迭代
for i in range(n_iterables):
# 初始化b、k的偏导
b_grad = 0
k_grad = 0
# 遍历m次
for j in range(m):
# 对b,k求偏导
b_grad += (1 / m) \* ((k \* x_data[j] + b) - y_data[j])
k_grad += (1 / m) \* ((k \* x_data[j] + b) - y_data[j]) \* x_data[j]
# 更新 b 和 k 减去偏导乘以学习率
b = b - (learning_rate \* b_grad)
k = k - (learning_rate \* k_grad)
# 每迭代 5 次 输出一次图形
if i % 5 == 0:
print(f"当前第{i}次迭代")
print("b\_gard:", b_grad, "k\_gard:", k_grad)
print("b:", b, "k:", k)
plt.scatter(x_data, y_data, color="maroon", marker="x")
plt.plot(x_data, k \* x_data + b)
plt.show()
return b, k
⑤执行
print(f"开始:截距b={b},斜率k={k},损失={compute\_mse(b,k,x\_data,y\_data)}")
print("开始迭代")
b, k = gradient_descent(x_data, y_data, b, k, learning_rate, n_iterables)
print(f"迭代{n\_iterables}次后:截距b={b},斜率k={k},损失={compute\_mse(b,k,x\_data,y\_data)}")
代码执行过程产生了一系列的图像,部分图像如下图所示,随着迭代次数的增加,代价函数越来越小,最终达到预期效果,如下图所示:
第5次迭代:
第10次迭代:
第50次迭代:
执行过程的输出结果如下图所示:
可以看到,随着偏导数越来越小,斜率与截距的变化也越来越细微。
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
链图片转存中…(img-BKZuhfnl-1714708842114)]
[外链图片转存中…(img-wA6uhGSk-1714708842114)]
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!