线性回归算法推导

微积分基本运算法则

  • 法则一:对 y ( x ) = c x n y(x)=cx^n y(x)=cxn ,其针对 x 的偏导数为 ∂ ∂ x f ( x ) = c n x n − 1 \frac{\partial}{\partial x}f(x)=cnx^{n-1} xf(x)=cnxn1

  • 法则二:常数的微分为 0

  • 法则三:偏导数可以穿透累加器,即
    ∂ ∂ x 0 ∑ i = 0 n F ( x i ) = ∑ i = 0 n ∂ ∂ x 0 F ( x i ) \frac{\partial}{\partial x_0}\sum_{i=0}^nF(x_i) = \sum_{i=0}^n\frac{\partial}{\partial x_0}F(x_i) x0i=0nF(xi)=i=0nx0F(xi)

  • 法则四:微分链接法则,比如 f ( x ) f(x) f(x) 是以 x 为自变量的函数,令 J ( x ) = g ( f ( x ) ) J(x)=g(f(x)) J(x)=g(f(x)) ,则 J ( x ) J(x) J(x) 的微分方程为
    ∂ ∂ x J ( x ) = g ′ ( f ( x ) ) × f ′ ( x ) \frac{\partial}{\partial x}J(x) = g'(f(x))\times f'(x) xJ(x)=g(f(x))×f(x)

  • 法则五:计算偏导数时,把求导变量当作变量,其他的变量当作常数,比如对方程 f ( x , y ) = a x n + b y m f(x, y) = ax^n + by^m f(x,y)=axn+bym,则
    ∂ ∂ x f ( x , y ) = n a x n − 1 \frac{\partial}{\partial x}f(x, y) = na x^{n-1} xf(x,y)=naxn1
    因为是对 x 求导,所以可以把 y 当成常数,即 b y m by^m bym 整个算子就是一个常数,根据第二个法则,常数的导数为 0。

线性回归算法

假设我们训练数据集 (training data set) 有 m 个数据 ( x 0 , y 0 ) , ( x 1 , y 1 ) , … ( x m , y m ) (x_0, y_0), (x_1, y_1), … (x_m, y_m) (x0,y0),(x1,y1),(xm,ym) ,我们用线性方程 h ( x ) = θ 0 + θ 1 x h(x) = \theta_0 + \theta_1 x h(x)=θ0+θ1x 来拟合这组数据,怎么样来选取参数 θ 0 \theta_0 θ0 θ 1 \theta_1 θ1 来最优拟合这组数据呢?

我们可以把这 m 个点画在二维坐标系里,然后计算这 m 个点到我们的线性方程所描述的直线的最短距离,当这些点到我们的拟合直线的距离总和最小时,那么我们就找到了最优的拟合方案了。所以,问题转化为求下面函数的最小值:
J ( θ ) = J ( θ 0 , θ 1 ) = 1 2 m ∑ i = 1 m ( h ( x ( i ) ) − y ( i ) ) 2 J(\theta) = J(\theta_0, \theta_1) = \frac{1}{2m}\sum_{i=1}^m(h(x^{(i)}) - y^{(i)})^2 J(θ)=J(θ0,θ1)=2m1i=1m(h(x(i))y(i))2
上面的公式叫成本函数 (Cost Function),其中 h ( x i ) h(x_i) h(xi) 是我们的拟合函数针对 x i x_i xi 这个点预测出来的值。乘以 1 2 \frac12 21 是为了计算方便,后文我们会看到。

上面我们只考虑了一个变量 x x x ,即决定这组数据 y y y 值的只有一个变量。考虑更一般的情况,有 n 个变量 x 1 , x 2 , x 3 , … x n x_1, x_2, x_3, … x_n x1,x2,x3,xn 决定 y y y 的值,那么我们的预测函数模型可以改写如下:
h ( x ) = θ 0 + θ 1 x 1 + θ 2 x 2 + … + θ n x n h(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + … + \theta_n x_n h(x)=θ0+θ1x1+θ2x2++θnxn
我们让 x 0 x_0 x0 为常数 1,用累加器运算符重写上面的预测函数
h ( x ) = ∑ j = 0 n θ j x j h(x) = \sum_{j=0}^n \theta_j x_j h(x)=j=0nθjxj
θ 0 , θ 1 , … θ n \theta_0, \theta_1, … \theta_n θ0,θ1,θn 我们统称为 θ \theta θ,是我们的预测函数的 n 个参数 (parameters)。即一组 θ \theta θ 值就决定了一个预测函数,我们记作 h θ ( x ) h_\theta(x) hθ(x),为了简便起见,在不引起误解的情况下我们也把它简写为 h ( x ) h(x) h(x)。理论上,预测函数有无穷多个,我们求解的目标就是找出一个最优的 θ \theta θ 值。

为了计算 J ( θ ) J(\theta) J(θ) 的最小值,我们选取一组初始的 θ \theta θ ,然后逐步调整 θ \theta θ 的值,以便让 J ( θ ) J(\theta) J(θ) 逐渐变小,最后我们希望能让 J ( θ ) J(\theta) J(θ) 收敛在一个极值附近,这样我们就找到了最优或局部最优的解。 θ \theta θ 的迭代公式为:
θ j = θ j − α ∂ ∂ θ j J ( θ ) \theta_j = \theta_j - \alpha \frac\partial{\partial{\theta_j}}J(\theta) θj=θjαθjJ(θ)
其中, α \alpha α 是叫学习率 (learning rate),表示我们一次要让 θ j \theta_j θj 往前迈多大步子。如果步子太小,意味着要计算很多次才能到达目的地,如果步子太大,可以会直接跨过目的地,从而无法收敛。

∂ ∂ θ j J ( θ ) \frac\partial{\partial{\theta_j}}J(\theta) θjJ(θ) 就是成本函数的偏导数 (partial derivatives)。

在这个公式里,可以简单地把偏导数理解为斜率。我们要让 θ j \theta_j θj 不停地迭代,则根据当前 θ j \theta_j θj 的值,我们算出 J ( θ ) J(\theta) J(θ) θ j \theta_j θj 上的斜率,然后再乘以我们的学习率 α \alpha α 就让我们的 θ j \theta_j θj 往前迈了一小步。

现在问题转化为求 J ( θ ) J(\theta) J(θ) 的偏导数,这个推导过程会用到文章开头部分介绍的几个微积分运算基本法则。

根据成本函数的定义,以及文章开头的几个微积分基本运算法则,我们可以求解参数迭代公式里偏微分算子。
∂ ∂ θ j J ( θ ) = ∂ ∂ θ j 1 2 m ∑ i = 1 m ( h ( x ( i ) ) − y ( i ) ) 2 \frac\partial{\partial{\theta_j}}J(\theta) = \frac\partial{\partial{\theta_j}} \frac{1}{2m}\sum_{i=1}^m(h(x^{(i)}) - y^{(i)})^2 θjJ(θ)=θj2m1i=1m(h(x(i))y(i))2
= 1 2 m ∑ i = 1 m ∂ ∂ θ j ( h ( x ( i ) ) − y ( i ) ) 2 = \frac{1}{2m}\sum_{i=1}^m \frac\partial{\partial{\theta_j}} (h(x^{(i)}) - y^{(i)})^2 =2m1i=1mθj(h(x(i))y(i))2
= 2 1 2 m ∑ i = 1 m ( ( h ( x ( i ) ) − y ( i ) ) ∂ ∂ θ j ( h ( x ( i ) ) − y ( i ) ) ) = 2 \frac{1}{2m} \sum_{i=1}^m \left((h(x^{(i)}) - y^{(i)}) \frac\partial{\partial{\theta_j}} \left(h(x^{(i)}) - y^{(i)}\right)\right) =22m1i=1m((h(x(i))y(i))θj(h(x(i))y(i)))
= 1 m ∑ i = 1 m ( ( h ( x ( i ) ) − y ( i ) ) ∂ ∂ θ j ( ∑ j = 0 n θ j x j ( i ) − y ( i ) ) ) = \frac{1}{m} \sum_{i=1}^m \left(\left(h(x^{(i)}) - y^{(i)}\right) \frac\partial{\partial{\theta_j}} \left(\sum_{j=0}^n \theta_j x_j^{(i)} - y^{(i)}\right)\right) =m1i=1m((h(x(i))y(i))θj(j=0nθjxj(i)y(i)))
= 1 m ∑ i = 1 m ( ( h ( x ( i ) ) − y ( i ) ) x j ( i ) ) = \frac{1}{m} \sum_{i=1}^m \left(\left(h(x^{(i)}) - y^{(i)}\right) x_j^{(i)}\right) =m1i=1m((h(x(i))y(i))xj(i))

上面5步推导解释

步骤解释
1替换 J ( θ ) J(\theta) J(θ)
2偏导数穿透累加器
3复合函数求偏导
4替换 h ( x ( i ) ) h(x^{(i)}) h(x(i))
5再次求偏导

这里也可以看到之前除以 2 的目的是为了抵消计算偏导数时乘以 2。

最后得出我们的参数迭代函数
θ j = θ j − α m ∑ i = 1 m ( ( h ( x ( i ) ) − y ( i ) ) x j ( i ) ) \theta_j = \theta_j - \frac{\alpha}{m} \sum_{i=1}^m \left(\left(h(x^{(i)}) - y^{(i)}\right) x_j^{(i)}\right) θj=θjmαi=1m((h(x(i))y(i))xj(i))

这个就是 LSM (Least Mean Squares) 迭代算法,也叫 Widrow-Hoff 学习算法。

解析一下这个公式几个关键部分的含义

  • h ( x ( i ) ) h(x^{(i)}) h(x(i)): 这个是按照我们的给定的参数的预测值,只要 θ \theta θ 确定了,我们就可以根据预测函数算出这个值
  • y ( i ) y^{(i)} y(i): 这个是训练数据集 (training data set) 的目标值
  • x j ( i ) x_j^{(i)} xj(i): 这个是训练数据集里第 j 个变量的值
  • ∑ i = 1 m \sum_{i=1}^m i=1m: 这个是对所有训练数据集求和。从这个也可以看到每迭代一次就要遍历一次全部训练数据集。所以这个算法也称为批量梯度下降算法 (Batch Gradient Descent) 。对训练数据集比较大的场景下,计算成本是很高的。后面我们会介绍另外一个提高运算效率的算法。

这个公式有些符合直觉的地方,比如 ( h ( x ( i ) ) − y ( i ) ) \left(h(x^{(i)}) - y^{(i)}\right) (h(x(i))y(i)) 表示的是预测值与真实值的误差,当误差比较大时,经过一轮的迭代, θ j \theta_j θj 的步幅就迈得比较大。即当我们的参数 θ \theta θ 离我们的目标值很远的时候,迭代一次的值变化比较大,可以快速地收敛,而当 θ \theta θ 离目标值比较近的时候,迭代一次的值变化比较小,即慢慢地收敛到目标值。

这个公式怎么样用编程语言来实现呢?在编写机器学习算法的时候,一般步骤如下:

  • 确定学习率 α \alpha α

α \alpha α 太大可能会使成本函数无法收敛,太小计算太多,机器学习算法效率就比较低。
确定参数起始点
比如让所有的参数都为 1 作为起点,即 θ 0 : = 1 , θ 1 : = 1 , … θ n : = 1 \theta_0 := 1, \theta_1 := 1, … \theta_n := 1 θ0:=1,θ1:=1,θn:=1。这样就得到了我们的预测函数: h θ ( x ) = ∑ i = 1 m x ( i ) h_\theta(x) = \sum_{i=1}^m x^{(i)} hθ(x)=i=1mx(i)

根据预测值和我们的成本函数,就可以算出我们在参数起始位置的成本。需要注意的是,参数起始点可以根据实际情况灵活选择,以便让机器学习算法的性能更高,比如选择比较靠近极点的位置。

  • 计算参数的下一组值

根据 LSM 算法,分别同时算出新的 θ j \theta_j θj 的值。然后用新的 θ \theta θ 值得到新的预测函数 h θ ( x ) h_\theta(x) hθ(x),再根据新的预测函数,代入成本函数就可以算出新的成本。

  • 确认成本函数是否收敛

拿新的成本和旧的成本进行比较,看成本是不是变得越来越小。如果两次成本之间的差异小于误差范围,即说明我们已经非常靠近最小成本附近了。就可以近似地认为我们找到了最小成本了。如果两次成本之间的差异在误差范围之外,重复步骤 3 继续计算下一组参数 θ \theta θ。直到找到我们的最优解。

随机梯度下降算法

批量梯度下降算法对参数进行一次迭代运算,就需要遍历所有的训练数据集。当训练数据集比较大时,这个算法的效率会很低。考虑另外一个算法:
θ j = θ j − α ( ( h ( x ( i ) ) − y ( i ) ) x j ( i ) ) \theta_j = \theta_j - \alpha \left(\left(h(x^{(i)}) - y^{(i)}\right) x_j^{(i)}\right) θj=θjα((h(x(i))y(i))xj(i))
这就是 随机梯度下降算法 (stochastic gradient descent)。这个算法的关键点是不去遍历所有的训练数据集,而是改成每次随机地从训练数据集里取一个数据进行参数迭代计算。

怎么理解随机

为什么这么神奇呢?为什么随机从训练数据集里选取一个数据来迭代,不但不影响最终计算结果,还大大地提高了效率。看数学时最怕的就是 我们考虑 bla bla bla,作者说出 “我们考虑 bla bla bla” 时背后的过程是怎么样的?坦白讲,怎么样从数学上证明随机梯度下降算法和批量梯度下降算法是等价的,我也不知道。不过我有个直观的可以帮助理解的解释。

回到成本函数的定义:
J ( θ ) = 1 2 m ∑ i = 1 m ( h ( x ( i ) ) − y ( i ) ) 2 J(\theta) = \frac{1}{2m} \sum_{i=1}^m \left(h(x^{(i)}) - y^{(i)}\right)^2 J(θ)=2m1i=1m(h(x(i))y(i))2
我们说过,这里累加后除以 2 是为了计算方便,那么我们除以 m 是什么意思呢?答案是平均值,即所有训练数据集上的点到我们预测函数的距离的平均值。再回到随机选取训练数据集里的一个数据这个做法来看,如果计算次数足够多,并且是真正随机,那么随机选取出来的这组数据从概率的角度来看,和平均值是相当的。

打个比方,有一个储钱罐里有 1 角的硬币 10 枚,5 角的硬币 2 枚,1 元的硬币 1 枚,总计 3 元,13 枚硬币。你随机从里面取 1000 次,每次取出来的硬币把币值记录下来,然后放回储钱罐里。这样最后去算这 1000 次取出来的钱的平均值 (1000 次取出来的币值总和除以 1000) 和储钱罐里每枚硬币的平均值 (3/13 元) 应该是近似相等的。

这样,我们基本上把线性回归算法,最小均方差,随机梯度下降算法的来龙去脉理了一遍。

END

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值