LeastSquaresGradient

LeastSquaresGradient 计算每个样本的梯度和误差

作用:对每一个单例样本,计算线性回归的最小二乘损失函数的梯度和损失

在LinearRegression.scala的第87行生成了该类的实例

该类有两个compute方法

1.

override def compute(data: Vector, label: Double, weights: Vector)
 方法返回两个值
 一、梯度值:x*(y-h⊙(x))
 二、损失值loss=1/2(y-h⊙(x))^2
 其中
 x为损失值loss
 y=data*weights 即为该权重下的数据结果值
 h(⊙)=label 即为样本值


2.

override def compute(data: Vector,label: Double,weights: Vector,
      cumGradient: Vector)
 方法只有一个返回值
 一、损失值
 跟上面的三个参数的compute方法相比,y计算公式变了
 y=data*weights+cumGradient
 损失值的计算还是 loss = 1/2(y-h⊙(x))^2



以下是org.apache.spark.mllib.optimization.LeastSquaresGradient的源代码

[javascript]  view plain  copy
  1. /** 
  2.  * :: DeveloperApi :: 
  3.  * Compute gradient and loss for a Least-squared loss function, as used in linear regression. 
  4.  * This is correct for the averaged least squares loss function (mean squared error) 
  5.  *              L = 1/2n ||A weights-y||^2 
  6.  * See also the documentation for the precise formulation. 
  7.  */  
  8. @DeveloperApi  
  9. class LeastSquaresGradient extends Gradient {  
  10.   override def compute(data: Vector, label: Double, weights: Vector): (Vector, Double) = {  
  11.     val diff = dot(data, weights) - label  
  12.     val loss = diff * diff / 2.0  
  13.     val gradient = data.copy  
  14.     scal(diff, gradient)  
  15.     (gradient, loss)  
  16.   }  
  17.   
  18.   override def compute(  
  19.       data: Vector,  
  20.       label: Double,  
  21.       weights: Vector,  
  22.       cumGradient: Vector): Double = {  
  23.     val diff = dot(data, weights) - label  
  24.     axpy(diff, data, cumGradient)  
  25.     diff * diff / 2.0  
  26.   }  
  27. }  



以下是测试的scala代码

[javascript]  view plain  copy
  1. package com.mllib.component  
  2. import org.apache.spark.mllib.optimization.LeastSquaresGradient  
  3. import org.apache.spark.mllib.linalg.Vectors  
  4. /** 
  5.  * def compute(data: Vector, label: Double, weights: Vector) 
  6.  * 方法返回两个值 
  7.  * 一、梯度值:x*(y-h⊙(x)) 
  8.  * 二、损失值loss=1/2(y-h⊙(x))^2 
  9.  * 其中 
  10.  * x为损失值loss 
  11.  * y=data*weights 即为该权重下的数据结果值 
  12.  * h(⊙)=label 即为样本值 
  13.  *  
  14.  *  
  15.  * override def compute(data: Vector,label: Double,weights: Vector, 
  16.       cumGradient: Vector) 
  17.  * 方法只有一个返回值 
  18.  * 一、损失值 
  19.  * 跟上面的三个参数的compute方法相比,y计算公式变了 
  20.  * y=data*weights+cumGradient 
  21.  * 损失值的计算还是 loss = 1/2(y-h⊙(x))^2 
  22.  *  
  23.  *  
  24.  */  
  25. object LeastSquaresGradientTest {  
  26.     def main(args: Array[String]): Unit = {  
  27.         val gradient = new LeastSquaresGradient  
  28.         val dataArr =  Array[Double](1,2,3,4)  
  29.         val data =  Vectors.dense(dataArr)  
  30.           
  31.         val weightsArr =  Array[Double](2,3,4,5)  
  32.         val weights =  Vectors.dense(weightsArr)  
  33.         val label = 43.0d  
  34.         val (da, loss) = gradient.compute(data, label, weights) //基于最小二乘计算梯度值和损失值  
  35.         println(da.toArray.mkString(",")) //-3.0,-6.0,-9.0,-12.0  
  36.         println(loss) //4.5  
  37.           
  38.         val cumGradientArr = Array[Double](6,7,8,9)   
  39.         val cumGradient = Vectors.dense(cumGradientArr)  
  40.         val loss2 = gradient.compute(data, label, weights, cumGradient)  
  41.         println(loss2) //4.5  
  42.           
  43.     }  
  44.     
  45. }  


不规范的计算过程如下:

dot(data,weights) = data点乘weights = (1,2,3,4) 点乘 (2,3,4,5) = 40

diff = dot(data,weights) - label = (40-43) = -3

loss = diff^2 /2 = 4.5     
gradient = diff * data = (-3.0,-6.0,-9.0,-12.0) 

方法返回 (gradient, loss)


转载请注明http://blog.csdn.net/wguangliang

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值