笔记
(由于之前接触过相关知识,记的笔记相对比较随意,但是关键步骤操作都在)
练习
•
为什么计算函数极值用梯度下降算法而不直接令
(
偏
)
导数为
0
求解?
理论上是可以数学方法求解是没问题的。但是实际上有些函数很复杂,导致方程解析解很难求甚至没有解,也并不是所有函数都可以根据导数求出取得0值的点的;我们知道实际问题往往都是很复杂的,能直接被数学解决的问题也不需要计算机了,尤其是当数据量极大时,将数据全部带入计算不切实际,而梯度下降支持对数据分批处理;最重要的是,计算机大量循环迭代求极值是肯定有解的,虽然可能不是最优的,但是相对较优就可以解决大部分问题了,而且很可能求出来就是最优解。当然具体还是得视实际情况而定。
综上:
1.数学方法存在局限性;2.计算机更加适合用循环迭代的方法来求极值。3.实际情况中计算函数极值更常用的是用梯度下降算法而不直接令 (偏)导数为0求解。
•
正则化表达式为什么不考虑
bias?
首先我们来看看正则表达式,以常见的L2范数正则化为例,
正则化的目标是减少w,直观上讲就是,使曲线更光滑,避免过拟合,就像上课说的,We believe smoother function is more likely to be correct,那么考虑bias无法做到这一点,理论上也就无需考虑它了。