机器学习算法笔记1_1:线性回归

形式

h(x)=i=0nθixi=θTx

代价函数:

J(θ)=12i=1m(h(x(i)θ)y(i))2

  1. LMS(Least Mean Squares)算法

    1. 参数更新原则
      梯度下降法,参数沿着使代价函数下降最快的方向改变,其中 α 为学习速率
      \theta
      • 单样本更新
        single sample
        update
        可以看到,当误差( y(i)hθ(x(i)) )越大时,参数更新幅度越大,反之较小。
        这只是针对一个样本的情况,当有多个样本时,有以下两种方法更新参数
      • 批处理算法
      • 随机梯度下降法(stochastic gradient descent)

        由于批处理算法每次更新都需要浏览整个数据集,所以,通常来说(特别是训练街特别大的时候),随机梯度下降法具有更快的收敛速度。
  2. LMS的矩阵表示

    1. 矩阵知识

      1. 矩阵导数

        • 如果AB是方阵则trAB=trBA,同理

        • 其他性质


          (4)中要求A为非奇异矩阵

    2. 矩阵表示LMS


      (2)(3)可得

      所以

      其中第二步到第三步是因为 J(θ) 是一个实数,而对于实数a有a=tr(a)
      第三步到第四步是因为 trA=trAT ;
      第四步到第五步利用了公式(5),其中 AT=θ,B=BT=XTX,C=I
      J(θ) 最小时,其对于 θ 的导数为0,即有 XTXθ=XTy θ=(XTX)1XTy
  3. 线性回归代价函数J解释

    • 形式:将目标变量和自变量通过下式联系起来:

      其中 ϵ(i) 是误差项并且假设它服从高斯(Gaussian)独立同分布(IID, independently and identically distributed)



      为了强调这个函数是由 θ 决定,我们将其称为似然函数:

      由于 ϵ(i) 是独立同分布的,所以

      根据最大似然法则,我们应该选择使上面似然概率最大的 θ ,为了方便,将其化为下面的对数似然函数形式

      所以,最大化似然函数等价于最小化下式:

      这就是我们前面提到的代价函数
  4. 局部加权线性回归(LWR locally weighted linear regression)

    ω 很大时,该项在代价函数中的作用变得很明显;反之,对应项的误差将会被忽略。

    • 目的: 防止过拟合

    • ω 的选择:

      x(i) 为第i个样本点,x为查询点,两者越接近,对应项权重越靠近1,否则,趋近于0; τ 被称为带宽(bandwidth)参数,它控制权重相对于 x(i)x 改变的快慢。
      这是我们接触的第一个非参数方法
      (斯坦福机器学习教程)

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值