机器学习 Machine Learning(by Andrew Ng)----第二章 单变量线性回归(Linear Regression with One Variable)

第二章 单变量线性回归(Linear Regression with One Variable)


                                                      <模型表示(Model Representation)>
                                                            <代价函数(Cost Function)>
                                                         <梯度下降(Gradient Descent)>
                                  <梯度下降的线性回归(Gradient Descent For Linear Regression)>


1.模型表示(Model Representation)


          假使我们回归问题的训练集(Training Set)如下表所示:

                                               

         我们将要用来描述这个回归问题的标记如下:

                   m 代表训练集中实例的数量

                   x 代表特征/输入变量

                   y 代表目标变量/输出变量

                  (x,y) 代表训练集中的实例

                  (x(i),y(i) ) 代表第 i 个观察实例

                  h 代表学习算法的解决方案或函数也称为假设(hypothesis

                                                      

        根据已知数据和如上分析,我们可以得到下图:

                                

      我将选择最初的使用规则 h代表hypothesis因而,要解决房价预测问题,我们实际上是要将训练集给我们的学习算法,进而学习得到一个假设h,然后将我们要预测的房屋的尺寸作为输入变量输入给h,预测出该房屋的交易价格作为输出变量输出为结果。那么对于房价预测问题,该如何表达h?一种可能的表示为h(x)=theta0+theta1*x ,因为只含有一个特征/输入变量x,因此这样的问题叫作单变量线性回归问题。


2.代价函数(Cost Function)


      我们选择的参数决定了我们得到的直线相对于我们的训练集的准确程度,模型所预测的值与训练集中实际值之间的差距(下图中蓝线所指)就是建模误差modeling error)。

                                                         
   下面我们给出假设函数和代价函数模型:

      

       代价函数也被称作平方误差函数,有时也被称为平方误差代价函数。我们之所以要求出误差的平方和,是因为平方误差代价函数,对于大多数问题,特别是回归问题,都是一个合理的选择。还有其他的代价函数也能很好地发挥作用,但是平方误差代价函数可能是解决回归问题最常用的手段了。

    下面我们看看代价函数到底都做了什么,如图:

                          

       我们可以绘制一个等高线图,三个坐标分别为θ0 和θ1 和 J(θ0,θ1),更清楚的表现出来: 

         

我们可以看出在三维空间中存在一个使得 J(θ0,θ1)最小的点。

         

      通过这些图形,我们能更好地理解这些代价函数 J 所表达的值是什么样的,它们对应的假设是什么样的,以及什么样的假设对应的点,更接近于代价函数J的最小值。 当然,我们真正需要的是一种有效的算法,能够自动地找出这些使代价函数J取最小值的参数θ0和θ1来。


3.梯度下降(Gradient Descent)


       梯度下降是一个用来求函数最小值的算法,我们将使用梯度下降算法来求出代价函数 J(θ01) 的最小值。

       梯度下降背后的思想是:开始时我们随机选择一个参数的组合(θ01,...,θn),计算代价函数,然后我们寻找下一个能让代价函数值下降最多的参数组合。我们持续这么做直到到到一个局部最小值(local minimum,因为我们并没有尝试完所有的参数组合,所以不能确定我们得到的局部最小值是否便是全局最小值global minimum),选择不同的初始参数组合,可能会找到不同的局部最小值。

                  
     梯度下降算法的公式如下图:
其中α是学习率(learning rate,它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大。

      在梯度下降算法中,这是正确实现同时更新的方法。同时更新也是梯度下降中的一种常用方法。

         

让我们来看看如果α太小或α太大会出现什么情况:

       如果α太小,即选的学习速率太小,结果就是一点点地挪动去努力接近最低点,这样就需要很多步才能到达最低点,所以如果α太小的话,可能会很慢 ,因为它会一点点挪动,它会需要很多步才能到达全局最低点

       如果α太大,那么梯度下降法可能会越过最低点,甚至可能无法收敛,下一次迭代又移动了一大步,越过一次,又越过一次,一次次越过最低点,直到你发现实际上离最低点越来越远,所以,如果α太大,它会导致无法收敛,甚至发散

       有一点值得注意:
                    

   当我们接近局部最低时,导数值会自动变得越来越小,所以梯度下降将自动采取较小的幅度,这就是梯度下降的做法。所以实际上没有必要再另外减小α,我们需要的就是一个fixed(固定不变的)学习率α。


4.梯度下降的线性回归(Gradient Descent For Linear Regression)


       这就是在线性回归问题上使用梯度下降的方法。 梯度下降算法和线性回归算法比较如图:
                   

       对我们之前的线性回归问题运用梯度下降法,关键在于求出代价函数的导数,即:

                   

根据以上的分析可将梯度下降法改写成:

            

       我们刚刚使用的算法,有时也称为批量梯度下降。实际上,在机器学习中,通常不太会给算法起名字,但这个名字”批量梯度下降”,指的是在梯度下降的每一步中,我们都用到了所有的训​​练样本,在梯度下降中,在计算微分求导项时,我们需要进行求和运算,所以,在每一个单独的梯度下降中,我们最终都要计算这样一个东西,这个项需要对所有m个训练样本求和。

       在后面的课程中,我们也会谈到一个方法,它可以在不需要多步梯度下降的情况下,也能解出代价函数J的最小值,这是另一种称为正规方程(normal equations)的方法。实际上在数据量较大的情况下,梯度下降法比正规方程要更适用一些。



  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值