机器学习算法笔记1_1:线性回归

最新推荐文章于 2024-09-13 19:03:07 发布

BUPT_WX

最新推荐文章于 2024-09-13 19:03:07 发布

阅读量3.7k

点赞数 1

文章标签：机器学习

形式

h (x) = \sum i = 0 n θ i x i = θ T x

$h(x)=\sum_{i=0}^n\theta_ix_i=\theta^Tx$

代价函数:

J (θ) = 1 2 \sum i = 1 m (h (x (i) θ) - y (i)) 2

$J(\theta)=\frac{1}{2}\sum_{i=1}^m(h(x_\theta^{(i)})-y^{(i)})^2$

LMS(Least Mean Squares)算法
1. 参数更新原则
  梯度下降法，参数沿着使代价函数下降最快的方向改变，其中 α 为学习速率
  - 单样本更新
    
    可以看到，当误差( $y^{(i)}-h_\theta(x^{(i)})$ )越大时，参数更新幅度越大，反之较小。
    这只是针对一个样本的情况，当有多个样本时，有以下两种方法更新参数
  - 批处理算法
  - 随机梯度下降法(stochastic gradient descent)
    
    由于批处理算法每次更新都需要浏览整个数据集，所以，通常来说(特别是训练街特别大的时候)，随机梯度下降法具有更快的收敛速度。
LMS的矩阵表示
1. 矩阵知识
  1. 矩阵导数
  2. 迹
    - 如果AB是方阵则trAB=trBA，同理
    - 其他性质
      
      (4)中要求A为非奇异矩阵
2. 矩阵表示LMS
  
  由(2)(3)可得
  
  所以
  
  其中第二步到第三步是因为 $J(\theta)$ 是一个实数，而对于实数a有a=tr(a)；
  第三步到第四步是因为 $trA=trA^T$ ;
  第四步到第五步利用了公式(5),其中 $A^T=\theta,B=B^T=X^TX,C=I$
  当 $J(\theta)$ 最小时，其对于 $\theta$ 的导数为0，即有 $X^TX\theta=X^Ty$ 即 $\theta=(X^TX)^{-1}X^Ty$
线性回归代价函数J解释
- 形式：将目标变量和自变量通过下式联系起来：
  
  其中 $\epsilon^{(i)}$ 是误差项并且假设它服从高斯(Gaussian)独立同分布(IID, independently and identically distributed)
  
  即
  
  为了强调这个函数是由 $\theta$ 决定,我们将其称为似然函数：
  
  由于 $\epsilon^{(i)}$ 是独立同分布的，所以
  
  根据最大似然法则，我们应该选择使上面似然概率最大的 $\theta$ ，为了方便，将其化为下面的对数似然函数形式
  
  所以，最大化似然函数等价于最小化下式：
  
  这就是我们前面提到的代价函数
局部加权线性回归(LWR locally weighted linear regression)

当 $\omega$ 很大时，该项在代价函数中的作用变得很明显；反之，对应项的误差将会被忽略。
- 目的：防止过拟合
- $\omega$ 的选择：
  
  $x^{(i)}$ 为第i个样本点，x为查询点，两者越接近，对应项权重越靠近1，否则，趋近于0； $\tau$ 被称为带宽(bandwidth)参数，它控制权重相对于 $x^{(i)}-x$ 改变的快慢。
  这是我们接触的第一个非参数方法
  （斯坦福机器学习教程）