机器学习:梯度下降和牛顿法

本文分析了机器学习中梯度下降和牛顿法在二维数据上的应用,探讨了两种方法的数学运算量、收敛时间和学习率的影响。通过实例展示了在不同学习率下的迭代次数与准则函数曲线,并比较了两种方法的收敛速度和运算复杂度。结论指出,牛顿法虽收敛快,但计算赫森矩阵的逆可能增加时间开销,而梯度下降在适当学习率下也能找到解。
摘要由CSDN通过智能技术生成

一、问题描述

考虑将基本梯度下降和牛顿法应用到表中的数据上。

(a)用这两种算法对二维数据给出 的判别。对梯度下降法取 。画出以迭代次数为准则函数的曲线。

(b)估计这两种方法的数学运算量。

(c)画出收敛时间-学习率曲线。求出无法收敛的最小学习率。

二、算法核心思想分析

1、线性判别函数

的各个分量的线性组合而成的函数:

这里 是“权向量”, 被称为“阈值权”。对于二分类器来说,若 ,则判定为 ,若 ,则判定为 。方程 定义了一个判定面,把两个类分开,被称为“超平面”。

2、广义线性判别函数

线性判别函数 可写成:

其中系数 是权向量 的分量。通过加入另外的项( 的各对向量之间的乘积),我们得到二次判别函数:

因为 ,不失一般性我们可以假设 。由此,二次判别函数拥有更多系数来产生复杂的分隔面。此时 定义的分隔面试一个二阶曲面或说是“超二次曲面”。

若继续加入更高次的项,我们就得到多项式判别函数。这可看做对某一判别函数 做级数展开,然后取其截尾逼近,此时广义线性判别函数可写成:

这里 通常被称为“增广特征向量”,类似地, 被称为“增广权向量”,设 ,可写成:

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值