在gradient descent 梯度下降公式中,一般的表达都是如下:
之前没有认真思考这个公式为什么这样定义?只理解到学习率如何影响到最小值的获得。
但是学习率 α 后为什么用 θ1处的求导呢?在吴恩达的课程论坛中也看到类似的提问:
论坛链接:为什么用这个公式
有个回答很清楚,我直接贴过来了。可以看出,其实可以不必使用cost function的导数。
但是用cost fucntion求导肯定有其好处,这篇文章阐述的很清楚,如 链接:
在gradient descent 梯度下降公式中,一般的表达都是如下:
之前没有认真思考这个公式为什么这样定义?只理解到学习率如何影响到最小值的获得。
但是学习率 α 后为什么用 θ1处的求导呢?在吴恩达的课程论坛中也看到类似的提问:
论坛链接:为什么用这个公式
有个回答很清楚,我直接贴过来了。可以看出,其实可以不必使用cost function的导数。
但是用cost fucntion求导肯定有其好处,这篇文章阐述的很清楚,如 链接: