梯度下降策略

最新推荐文章于 2024-06-30 10:57:41 发布

Vincen_zh

最新推荐文章于 2024-06-30 10:57:41 发布

阅读量387

点赞数

分类专栏：机器学习文章标签：梯度下降 Gradient Descent

本文链接：https://blog.csdn.net/Vincen_zh/article/details/88672598

版权

机器学习专栏收录该内容

7 篇文章 1 订阅

订阅专栏

                    
                    梯度下降 
引入：当我们得到一个目标函数后，如何进行求解？ 
  直接求解?（并不一定可解，线性回归可以当做是一个特例）
 
常规套路：机器学习的套路就是我交给机器一堆数据，然后告诉他什么样的学习方式是对的（目标函数），然后让它朝着这个方向去做
如何优化：一口吃不成个胖子，我们要静悄悄的一步步的完成迭代（每次优化一点点，累积起来就是个大成绩了）
目标函数： 
       
           J 
          
           ( 
          
            θ 
           
            0 
           
           , 
          
            θ 
           
            1 
           
           ) 
          
           = 
          
            1 
           
             2 
            
             m 
            
            ∑ 
           
             i 
            
             = 
            
             1 
            
            m 
           
           ( 
          
            h 
           
            θ 
           
           ( 
          
            x 
           
            i 
           
           ) 
          
           − 
          
            y 
           
            i 
           
            ) 
           
            2 
           
          J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^i)-y^i)^2 
         
      J(θ0​,θ1​)=2m1​i=1∑m​(hθ​(xi)−yi)2
 
寻找山谷最低点，也就是我们的目标函数终点（什么样的参数能使得目标函数达到极值点）
下山分几步走呢？（更新参数） 
  找到当前最合适的方向
走那么一小步，走快了该“跌倒”了
按照方向与步伐去更新我们的参数
 
梯度下降，目标函数： 
     
         J 
        
         ( 
        
          θ 
         
          0 
         
         , 
        
          θ 
         
          1 
         
         ) 
        
         = 
        
          1 
         
           2 
          
           m 
          
          ∑ 
         
           i 
          
           = 
          
           1 
          
          m 
         
         ( 
        
          y 
         
          i 
         
         − 
        
          h 
         
          θ 
         
         ( 
        
          x 
         
          i 
         
         ) 
        
          ) 
         
          2 
         
        J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^m(y^i-h_\theta(x^i))^2 
       
    J(θ0​,θ1​)=2m1​∑i=1m​(yi−hθ​(xi))2 
批量梯度下降： 
       
             ∂ 
            
             J 
            
             ( 
            
             θ 
            
             ) 
            
             ∂ 
            
              θ 
             
              j 
             
           = 
          
           − 
          
            1 
           
            m 
           
            ∑ 
           
             i 
            
             = 
            
             1 
            
            m 
           
           ( 
          
            y 
           
            i 
           
           − 
          
            h 
           
            θ 
           
           ( 
          
            x 
           
            i 
           
           ) 
          
           ) 
          
            x 
           
            j 
           
            i 
           
          \frac{\partial J(\theta)}{\partial \theta_j}=-\frac{1}{m}\sum_{i=1}^m(y^i-h_\theta(x^i))x_j^i 
         
      ∂θj​∂J(θ)​=−m1​i=1∑m​(yi−hθ​(xi))xji​
  
            θ 
           
            j 
           
            ′ 
           
           = 
          
            θ 
           
            j 
           
           + 
          
            1 
           
            m 
           
            ∑ 
           
             i 
            
             = 
            
             1 
            
            m 
           
           ( 
          
            y 
           
            i 
           
           − 
          
            h 
           
            θ 
           
           ( 
          
            x 
           
            i 
           
           ) 
          
           ) 
          
            x 
           
            j 
           
            i 
           
          \theta_j&#x27;=\theta_j+\frac{1}{m}\sum_{i=1}^m(y^i-h_\theta(x^i))x_j^i 
         
      θj′​=θj​+m1​i=1∑m​(yi−hθ​(xi))xji​
 （容易得到最优解，但是由于每次考虑所有样本，速度很慢）
随机梯度下降： 
       
            θ 
           
            j 
           
            ′ 
           
           = 
          
            θ 
           
            j 
           
           + 
          
           ( 
          
            y 
           
            i 
           
           − 
          
            h 
           
            θ 
           
           ( 
          
            x 
           
            i 
           
           ) 
          
           ) 
          
            x 
           
            j 
           
            i 
           
          \theta_j&#x27;=\theta_j+(y^i-h_\theta(x^i))x_j^i 
         
      θj′​=θj​+(yi−hθ​(xi))xji​
 （每次找一个样本，迭代速度快，但不一定每次都朝着收敛的方向）
小批量梯度下降： 
       
            θ 
           
            j 
           
           = 
          
            θ 
           
            j 
           
           − 
          
           α 
          
            1 
           
            10 
           
            ∑ 
           
             k 
            
             = 
            
             i 
            
             i 
            
             + 
            
             9 
            
           ( 
          
            h 
           
            θ 
           
           ( 
          
            x 
           
            k 
           
           ) 
          
           − 
          
            y 
           
            k 
           
           ) 
          
            x 
           
            j 
           
            k 
           
          \theta_j=\theta_j-\alpha\frac{1}{10}\sum_{k=i}^{i+9}(h_\theta(x^k)-y^k)x_j^k 
         
      θj​=θj​−α101​k=i∑i+9​(hθ​(xk)−yk)xjk​
 （每次更新选择一小部分来算，实用！）
 
梯度下降，学习率 
学习率（步长）：对结果会产生巨大的影响，一般小一些
如何选择：从小的时候，不行再小
批处理数量：32，64，128都可以，很多时候还得考虑内存和效率

Vincen_zh

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
梯度下降策略

梯度下降引入：当我们得到一个目标函数后，如何进行求解？直接求解?（并不一定可解，线性回归可以当做是一个特例）常规套路：机器学习的套路就是我交给机器一堆数据，然后告诉他什么样的学习方式是对的（目标函数），然后让它朝着这个方向去做如何优化：一口吃不成个胖子，我们要静悄悄的一步步的完成迭代（每次优化一点点，累积起来就是个大成绩了）目标函数：J(θ0,θ1)=12m∑i=1m(hθ(xi...
复制链接

扫一扫