一、问题描述
考虑将基本梯度下降和牛顿法应用到表中的数据上。
(a)用这两种算法对二维数据给出 和
的判别。对梯度下降法取
。画出以迭代次数为准则函数的曲线。
(b)估计这两种方法的数学运算量。
(c)画出收敛时间-学习率曲线。求出无法收敛的最小学习率。
二、算法核心思想分析
1、线性判别函数
由 的各个分量的线性组合而成的函数:
这里 是“权向量”,
被称为“阈值权”。对于二分类器来说,若
,则判定为
,若
,则判定为
。方程
定义了一个判定面,把两个类分开,被称为“超平面”。
2、广义线性判别函数
线性判别函数 可写成:
其中系数 是权向量
的分量。通过加入另外的项(
的各对向量之间的乘积),我们得到二次判别函数:
因为 ,不失一般性我们可以假设
。由此,二次判别函数拥有更多系数来产生复杂的分隔面。此时
定义的分隔面试一个二阶曲面或说是“超二次曲面”。
若继续加入更高次的项,我们就得到多项式判别函数。这可看做对某一判别函数 做级数展开,然后取其截尾逼近,此时广义线性判别函数可写成:
或
这里 通常被称为“增广特征向量”,类似地,
被称为“增广权向量”,设
,可写成: