【机器学习】代价函数(cost function)
注:代价函数(有的地方也叫损失函数,Loss Function)在机器学习中的每一种算法中都很重要,因为训练模型的过程就是优化代价函数的过程,代价函数对每个参数的偏导数就是梯度下降中提到的梯度,防止过拟合时添加的正则化项也是加在代价函数后面的。在学习相关算法的过程中,对代价函数的理解也在不断的加深,在此做一个小结。
1. 什么是代价函数?
假设有训练样本(x, y),模型为h,参数为θ。h(θ) = θTx(θT表示θ的转置)。
(1)概况来讲,任何能够衡量模型预测出来的值h(θ)与真实值y之间的差异的函数都可以叫做代价函数C(θ),如果有多个样本,则可以将所有代价函数的取值求均值,记做J(θ)。因此很容易就可以得出以下关于代价函数的性质:
- 对于每种算法来说,代价函数不是唯一的;
- 代价函数是参数θ的函数;
- 总的代价函数J(θ)可以用来评价模型的好坏,代价函数越小说明模型和参数越符合训练样本(x, y);
- J(θ)是一个标量;
(2)当我们确定了模型h,后面做的所有事情就是训练模型的参数θ。那么什么时候模型的训练才能结束呢?这时候也涉及到代价函数,由于代价函数是用来衡量模型好坏的,我们的目标当然是得到最好的模型(也就是最符合训练样本(x, y)的模型)。因此训练参数的过程就是不断改变θ,从而得到更小的J(θ)的过程。理想情况下,当我们取到代价函数J的最小值时,就得到了最优的参数θ,记为:
![](https://i-blog.csdnimg.cn/blog_migrate/3c8c60f2d19a52dc4b6189cddaec71af.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b8988b0c1bcb29f4ec5e8be7bedcb729.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ca7577dee27a09e80f9214719cb39041.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f39270e52f903874e16e67877704656c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/813e375b2b5f4b8db5108a345a315915.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4f32db407280758470c2004805a16471.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ef290ded7eb5eac310169a50e9e994f1.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d65fe68cf33f3fac346b00dc819b4d5c.png)
例如,J(θ) = 0,表示我们的模型完美的拟合了观察的数据,没有任何误差。
(3)在优化参数θ的过程中,最常用的方法是梯度下降,这里的梯度就是代价函数J(θ)对θ1, θ2, ..., θn的偏导数。由于需要求偏导,我们可以得到另一个关于代价函数的性质:
- 选择代价函数时,最好挑选对参数θ可微的函数(全微分存在,偏导数一定存在)
2. 代价函数的常见形式
经过上面的描述,一个好的代价函数需要满足两个最基本的要求:能够评价模型的准确性,对参数θ可微。
2.1 均方误差
在线性回归中,最常用的是均方误差(Mean squared error),具体形式为:
![](https://i-blog.csdnimg.cn/blog_migrate/813e375b2b5f4b8db5108a345a315915.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4f32db407280758470c2004805a16471.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ef290ded7eb5eac310169a50e9e994f1.png)
![](https://i-blog.csdnimg.cn/blog_migrate/42cb511818bfbdb010ffabb45981669a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/36c0f36e095fb061f65d159796349b73.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ef290ded7eb5eac310169a50e9e994f1.png)
![](https://i-blog.csdnimg.cn/blog_migrate/174d56fff47c80dd928bcb68a291ef05.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d65fe68cf33f3fac346b00dc819b4d5c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/7aad9f6a4db33ddccc71598aa1dfea45.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ed0f63c39ab9321c1d4d873167820fdd.png)
![](https://i-blog.csdnimg.cn/blog_migrate/314097c0ca93144dea3fb3fcd107ad7e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/6458c783e9e0c6e0fcfa99a491801a7d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/469e5439f146507f16f97e38d11eb874.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b046e2987762b99662e1d2c8f79de484.png)
![](https://i-blog.csdnimg.cn/blog_migrate/13b2291a446ba53d0b1cb660fdb466c7.png)
![](https://i-blog.csdnimg.cn/blog_migrate/174d56fff47c80dd928bcb68a291ef05.png)
![](https://i-blog.csdnimg.cn/blog_migrate/884dc9a580917ee6b4ccb410ad269ee2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4f32db407280758470c2004805a16471.png)
![](https://i-blog.csdnimg.cn/blog_migrate/59846ef009a2a2d1574bfe75dc771e52.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3fc6b0ee5dda02c8ec937e52f74e2510.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4fc9c5ae60b6f6ad3268055050caa1c1.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b046e2987762b99662e1d2c8f79de484.png)
![](https://i-blog.csdnimg.cn/blog_migrate/835b1f460b682875830f742517969aa4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f04384954f68e6630c9d76364b11c753.png)
![](https://i-blog.csdnimg.cn/blog_migrate/59846ef009a2a2d1574bfe75dc771e52.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4fc9c5ae60b6f6ad3268055050caa1c1.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b046e2987762b99662e1d2c8f79de484.png)
![](https://i-blog.csdnimg.cn/blog_migrate/835b1f460b682875830f742517969aa4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d65fe68cf33f3fac346b00dc819b4d5c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/8fe9bb007e5347dfd06b48bd4b2f8e39.png)
![](https://i-blog.csdnimg.cn/blog_migrate/7aad9f6a4db33ddccc71598aa1dfea45.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ed0f63c39ab9321c1d4d873167820fdd.png)
![](https://i-blog.csdnimg.cn/blog_migrate/314097c0ca93144dea3fb3fcd107ad7e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/6458c783e9e0c6e0fcfa99a491801a7d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/469e5439f146507f16f97e38d11eb874.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b046e2987762b99662e1d2c8f79de484.png)
![](https://i-blog.csdnimg.cn/blog_migrate/13b2291a446ba53d0b1cb660fdb466c7.png)
![](https://i-blog.csdnimg.cn/blog_migrate/174d56fff47c80dd928bcb68a291ef05.png)
![](https://i-blog.csdnimg.cn/blog_migrate/884dc9a580917ee6b4ccb410ad269ee2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4f32db407280758470c2004805a16471.png)
![](https://i-blog.csdnimg.cn/blog_migrate/cce486a1d10141b953c92bf852dafdc7.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f39270e52f903874e16e67877704656c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4f32db407280758470c2004805a16471.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b3c164adadc5bae062be9dfc12b15631.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4fc9c5ae60b6f6ad3268055050caa1c1.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b046e2987762b99662e1d2c8f79de484.png)
![](https://i-blog.csdnimg.cn/blog_migrate/835b1f460b682875830f742517969aa4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d65fe68cf33f3fac346b00dc819b4d5c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f04384954f68e6630c9d76364b11c753.png)
![](https://i-blog.csdnimg.cn/blog_migrate/59846ef009a2a2d1574bfe75dc771e52.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4fc9c5ae60b6f6ad3268055050caa1c1.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b046e2987762b99662e1d2c8f79de484.png)
![](https://i-blog.csdnimg.cn/blog_migrate/835b1f460b682875830f742517969aa4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d65fe68cf33f3fac346b00dc819b4d5c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/8fe9bb007e5347dfd06b48bd4b2f8e39.png)
m:训练样本的个数;
hθ(x):用参数θ和x预测出来的y值;
y:原训练样本中的y值,也就是标准答案
上角标(i):第i个样本
2.2 交叉熵
在逻辑回归中,最常用的是代价函数是交叉熵(Cross Entropy),交叉熵是一个常见的代价函数,在神经网络中也会用到。下面是《神经网络与深度学习》一书对交叉熵的解释:
交叉熵是对「出乎意料」(译者注:原文使用suprise)的度量。神经元的目标是去计算函数y, 且y=y(x)。但是我们让它取而代之计算函数a, 且a=a(x)。假设我们把a当作y等于1的概率,1−a是y等于0的概率。那么,交叉熵衡量的是我们在知道y的真实值时的平均「出乎意料」程度。当输出是我们期望的值,我们的「出乎意料」程度比较低;当输出不是我们期望的,我们的「出乎意料」程度就比较高。
在1948年,克劳德·艾尔伍德·香农将热力学的熵,引入到信息论,因此它又被称为香农熵(Shannon Entropy),它是香农信息量(Shannon Information Content, SIC)的期望。香农信息量用来度量不确定性的大小:一个事件的香农信息量等于0,表示该事件的发生不会给我们提供任何新的信息,例如确定性的事件,发生的概率是1,发生了也不会引起任何惊讶;当不可能事件发生时,香农信息量为无穷大,这表示给我们提供了无穷多的新信息,并且使我们无限的惊讶。更多解释可以看这里。
![](https://i-blog.csdnimg.cn/blog_migrate/813e375b2b5f4b8db5108a345a315915.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4f32db407280758470c2004805a16471.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ef290ded7eb5eac310169a50e9e994f1.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d65fe68cf33f3fac346b00dc819b4d5c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/7aad9f6a4db33ddccc71598aa1dfea45.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f04384954f68e6630c9d76364b11c753.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ed0f63c39ab9321c1d4d873167820fdd.png)
![](https://i-blog.csdnimg.cn/blog_migrate/6458c783e9e0c6e0fcfa99a491801a7d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e385ae0a526b6ac7ca29c71fd1df40c5.png)
![](https://i-blog.csdnimg.cn/blog_migrate/469e5439f146507f16f97e38d11eb874.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b046e2987762b99662e1d2c8f79de484.png)
![](https://i-blog.csdnimg.cn/blog_migrate/13b2291a446ba53d0b1cb660fdb466c7.png)
![](https://i-blog.csdnimg.cn/blog_migrate/174d56fff47c80dd928bcb68a291ef05.png)
![](https://i-blog.csdnimg.cn/blog_migrate/884dc9a580917ee6b4ccb410ad269ee2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4f32db407280758470c2004805a16471.png)
![](https://i-blog.csdnimg.cn/blog_migrate/59846ef009a2a2d1574bfe75dc771e52.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4fc9c5ae60b6f6ad3268055050caa1c1.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b046e2987762b99662e1d2c8f79de484.png)
![](https://i-blog.csdnimg.cn/blog_migrate/835b1f460b682875830f742517969aa4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/6618b0c7e153b78f6f6bfdb56ed4766b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b5f495263d4ab58404c3880ae312370b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f7f1fd91470f4ebe7c7907b55052ecf6.png)
![](https://i-blog.csdnimg.cn/blog_migrate/cce486a1d10141b953c92bf852dafdc7.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f39270e52f903874e16e67877704656c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4f32db407280758470c2004805a16471.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b3c164adadc5bae062be9dfc12b15631.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4fc9c5ae60b6f6ad3268055050caa1c1.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b046e2987762b99662e1d2c8f79de484.png)
![](https://i-blog.csdnimg.cn/blog_migrate/835b1f460b682875830f742517969aa4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d65fe68cf33f3fac346b00dc819b4d5c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/38c3ecfd277e34daca27e2134ede67bb.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4f32db407280758470c2004805a16471.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ed0f63c39ab9321c1d4d873167820fdd.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f04384954f68e6630c9d76364b11c753.png)
![](https://i-blog.csdnimg.cn/blog_migrate/59846ef009a2a2d1574bfe75dc771e52.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4fc9c5ae60b6f6ad3268055050caa1c1.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b046e2987762b99662e1d2c8f79de484.png)
![](https://i-blog.csdnimg.cn/blog_migrate/835b1f460b682875830f742517969aa4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d65fe68cf33f3fac346b00dc819b4d5c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/6618b0c7e153b78f6f6bfdb56ed4766b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b5f495263d4ab58404c3880ae312370b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f7f1fd91470f4ebe7c7907b55052ecf6.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4f32db407280758470c2004805a16471.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ed0f63c39ab9321c1d4d873167820fdd.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f04384954f68e6630c9d76364b11c753.png)
![](https://i-blog.csdnimg.cn/blog_migrate/cce486a1d10141b953c92bf852dafdc7.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f39270e52f903874e16e67877704656c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4f32db407280758470c2004805a16471.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b3c164adadc5bae062be9dfc12b15631.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4fc9c5ae60b6f6ad3268055050caa1c1.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b046e2987762b99662e1d2c8f79de484.png)
![](https://i-blog.csdnimg.cn/blog_migrate/835b1f460b682875830f742517969aa4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d65fe68cf33f3fac346b00dc819b4d5c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d65fe68cf33f3fac346b00dc819b4d5c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b02960d3cf15a941bd541c6d020bc3b0.png)
符号说明同上
2.3 神经网络中的代价函数
学习过神经网络后,发现逻辑回归其实是神经网络的一种特例(没有隐藏层的神经网络)。因此神经网络中的代价函数与逻辑回归中的代价函数非常相似:
![](https://i-blog.csdnimg.cn/blog_migrate/813e375b2b5f4b8db5108a345a315915.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4f32db407280758470c2004805a16471.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ef290ded7eb5eac310169a50e9e994f1.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d65fe68cf33f3fac346b00dc819b4d5c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/7aad9f6a4db33ddccc71598aa1dfea45.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f04384954f68e6630c9d76364b11c753.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ed0f63c39ab9321c1d4d873167820fdd.png)
![](https://i-blog.csdnimg.cn/blog_migrate/6458c783e9e0c6e0fcfa99a491801a7d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e385ae0a526b6ac7ca29c71fd1df40c5.png)
![](https://i-blog.csdnimg.cn/blog_migrate/469e5439f146507f16f97e38d11eb874.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b046e2987762b99662e1d2c8f79de484.png)
![](https://i-blog.csdnimg.cn/blog_migrate/13b2291a446ba53d0b1cb660fdb466c7.png)
![](https://i-blog.csdnimg.cn/blog_migrate/174d56fff47c80dd928bcb68a291ef05.png)
![](https://i-blog.csdnimg.cn/blog_migrate/884dc9a580917ee6b4ccb410ad269ee2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/469e5439f146507f16f97e38d11eb874.png)
![](https://i-blog.csdnimg.cn/blog_migrate/200f4db14ba596fe34181d88bc22edaa.png)
![](https://i-blog.csdnimg.cn/blog_migrate/13b2291a446ba53d0b1cb660fdb466c7.png)
![](https://i-blog.csdnimg.cn/blog_migrate/174d56fff47c80dd928bcb68a291ef05.png)
![](https://i-blog.csdnimg.cn/blog_migrate/7e417b49e881f63d726ff8354915ca9a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4f32db407280758470c2004805a16471.png)
![](https://i-blog.csdnimg.cn/blog_migrate/59846ef009a2a2d1574bfe75dc771e52.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4fc9c5ae60b6f6ad3268055050caa1c1.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b046e2987762b99662e1d2c8f79de484.png)
![](https://i-blog.csdnimg.cn/blog_migrate/835b1f460b682875830f742517969aa4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/200f4db14ba596fe34181d88bc22edaa.png)
![](https://i-blog.csdnimg.cn/blog_migrate/6618b0c7e153b78f6f6bfdb56ed4766b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b5f495263d4ab58404c3880ae312370b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f7f1fd91470f4ebe7c7907b55052ecf6.png)
![](https://i-blog.csdnimg.cn/blog_migrate/cce486a1d10141b953c92bf852dafdc7.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f39270e52f903874e16e67877704656c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4f32db407280758470c2004805a16471.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b3c164adadc5bae062be9dfc12b15631.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4fc9c5ae60b6f6ad3268055050caa1c1.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b046e2987762b99662e1d2c8f79de484.png)
![](https://i-blog.csdnimg.cn/blog_migrate/835b1f460b682875830f742517969aa4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d65fe68cf33f3fac346b00dc819b4d5c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/38c3ecfd277e34daca27e2134ede67bb.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4f32db407280758470c2004805a16471.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ed0f63c39ab9321c1d4d873167820fdd.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f04384954f68e6630c9d76364b11c753.png)
![](https://i-blog.csdnimg.cn/blog_migrate/59846ef009a2a2d1574bfe75dc771e52.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4fc9c5ae60b6f6ad3268055050caa1c1.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b046e2987762b99662e1d2c8f79de484.png)
![](https://i-blog.csdnimg.cn/blog_migrate/835b1f460b682875830f742517969aa4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/200f4db14ba596fe34181d88bc22edaa.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d65fe68cf33f3fac346b00dc819b4d5c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/6618b0c7e153b78f6f6bfdb56ed4766b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b5f495263d4ab58404c3880ae312370b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f7f1fd91470f4ebe7c7907b55052ecf6.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4f32db407280758470c2004805a16471.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ed0f63c39ab9321c1d4d873167820fdd.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f04384954f68e6630c9d76364b11c753.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4f32db407280758470c2004805a16471.png)
![](https://i-blog.csdnimg.cn/blog_migrate/cce486a1d10141b953c92bf852dafdc7.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f39270e52f903874e16e67877704656c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4f32db407280758470c2004805a16471.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b3c164adadc5bae062be9dfc12b15631.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4fc9c5ae60b6f6ad3268055050caa1c1.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b046e2987762b99662e1d2c8f79de484.png)
![](https://i-blog.csdnimg.cn/blog_migrate/835b1f460b682875830f742517969aa4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d65fe68cf33f3fac346b00dc819b4d5c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d65fe68cf33f3fac346b00dc819b4d5c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/200f4db14ba596fe34181d88bc22edaa.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d65fe68cf33f3fac346b00dc819b4d5c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b02960d3cf15a941bd541c6d020bc3b0.png)
这里之所以多了一层求和项,是因为神经网络的输出一般都不是单一的值,K表示在多分类中的类型数。
3. 代价函数与参数
代价函数衡量的是模型预测值h(θ) 与标准答案y之间的差异,所以总的代价函数J是h(θ)和y的函数,即J=f(h(θ), y)。又因为y都是训练样本中给定的,h(θ)由θ决定,所以,最终还是模型参数θ的改变导致了J的改变。对于不同的θ,对应不同的预测值h(θ),也就对应着不同的代价函数J的取值。变化过程为:
![](https://i-blog.csdnimg.cn/blog_migrate/ef290ded7eb5eac310169a50e9e994f1.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f04384954f68e6630c9d76364b11c753.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f04384954f68e6630c9d76364b11c753.png)
![](https://i-blog.csdnimg.cn/blog_migrate/de0ff32c60050336719be28e914fe172.png)
![](https://i-blog.csdnimg.cn/blog_migrate/cce486a1d10141b953c92bf852dafdc7.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4f32db407280758470c2004805a16471.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ef290ded7eb5eac310169a50e9e994f1.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d65fe68cf33f3fac346b00dc819b4d5c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f04384954f68e6630c9d76364b11c753.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f04384954f68e6630c9d76364b11c753.png)
![](https://i-blog.csdnimg.cn/blog_migrate/de0ff32c60050336719be28e914fe172.png)
![](https://i-blog.csdnimg.cn/blog_migrate/813e375b2b5f4b8db5108a345a315915.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4f32db407280758470c2004805a16471.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ef290ded7eb5eac310169a50e9e994f1.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d65fe68cf33f3fac346b00dc819b4d5c.png)
θ引起了h(θ)的改变,进而改变了J(θ)的取值。为了更直观的看到参数对代价函数的影响,举个简单的例子:
有训练样本{(0, 0), (1, 1), (2, 2), (4, 4)},即4对训练样本,每个样本对中第1个数表示x的值,第2个数表示y的值。这几个点很明显都是y=x这条直线上的点。如下图:
图1:不同参数可以拟合出不同的直线
4. 代价函数与梯度
梯度下降中的梯度指的是代价函数对各个参数的偏导数,偏导数的方向决定了在学习过程中参数下降的方向,学习率(通常用α表示)决定了每步变化的步长,有了导数和学习率就可以使用梯度下降算法(Gradient Descent Algorithm)更新参数了。下图中展示了只有两个参数的模型运用梯度下降算法的过程。
4.1 线性回归模型的代价函数对参数的偏导数
还是以两个参数为例,每个参数都有一个偏导数,且综合了所有样本的信息。
4.2 逻辑回归模型的代价函数对参数的偏导数
根据逻辑回归模型的代价函数以及sigmoid函数
![](https://i-blog.csdnimg.cn/blog_migrate/cce486a1d10141b953c92bf852dafdc7.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f39270e52f903874e16e67877704656c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4f32db407280758470c2004805a16471.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b3c164adadc5bae062be9dfc12b15631.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d65fe68cf33f3fac346b00dc819b4d5c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/7aad9f6a4db33ddccc71598aa1dfea45.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d0dfc7b0be8ea29d84dd4932662414d2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4f32db407280758470c2004805a16471.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ef290ded7eb5eac310169a50e9e994f1.png)
![](https://i-blog.csdnimg.cn/blog_migrate/90818f440a4a9af61176b33686658aff.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b3c164adadc5bae062be9dfc12b15631.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d65fe68cf33f3fac346b00dc819b4d5c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d0dfc7b0be8ea29d84dd4932662414d2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4f32db407280758470c2004805a16471.png)
![](https://i-blog.csdnimg.cn/blog_migrate/235eaa7afbd91ce502a14d4c83222441.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d65fe68cf33f3fac346b00dc819b4d5c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/7aad9f6a4db33ddccc71598aa1dfea45.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ed0f63c39ab9321c1d4d873167820fdd.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ed0f63c39ab9321c1d4d873167820fdd.png)
![](https://i-blog.csdnimg.cn/blog_migrate/38c3ecfd277e34daca27e2134ede67bb.png)
![](https://i-blog.csdnimg.cn/blog_migrate/6de38a1752e79f136b89aeeac89da9b6.png)
![](https://i-blog.csdnimg.cn/blog_migrate/8bab1761f277ad86ad167dc49937890c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/42f4508bb1e910de82c9829873e09506.png)
得到对每个参数的偏导数为
![](https://i-blog.csdnimg.cn/blog_migrate/06129c14703358cbf02146dd82a5b7d0.png)
![](https://i-blog.csdnimg.cn/blog_migrate/06129c14703358cbf02146dd82a5b7d0.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ef290ded7eb5eac310169a50e9e994f1.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f02dfd234e3af3ed89e362b733987f3b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/813e375b2b5f4b8db5108a345a315915.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4f32db407280758470c2004805a16471.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ef290ded7eb5eac310169a50e9e994f1.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d65fe68cf33f3fac346b00dc819b4d5c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/7aad9f6a4db33ddccc71598aa1dfea45.png)
![](https://i-blog.csdnimg.cn/blog_migrate/469e5439f146507f16f97e38d11eb874.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b046e2987762b99662e1d2c8f79de484.png)
![](https://i-blog.csdnimg.cn/blog_migrate/13b2291a446ba53d0b1cb660fdb466c7.png)
![](https://i-blog.csdnimg.cn/blog_migrate/174d56fff47c80dd928bcb68a291ef05.png)
![](https://i-blog.csdnimg.cn/blog_migrate/884dc9a580917ee6b4ccb410ad269ee2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4f32db407280758470c2004805a16471.png)
![](https://i-blog.csdnimg.cn/blog_migrate/cce486a1d10141b953c92bf852dafdc7.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f39270e52f903874e16e67877704656c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4f32db407280758470c2004805a16471.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b3c164adadc5bae062be9dfc12b15631.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b046e2987762b99662e1d2c8f79de484.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d65fe68cf33f3fac346b00dc819b4d5c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f04384954f68e6630c9d76364b11c753.png)
![](https://i-blog.csdnimg.cn/blog_migrate/59846ef009a2a2d1574bfe75dc771e52.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b046e2987762b99662e1d2c8f79de484.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d65fe68cf33f3fac346b00dc819b4d5c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b3c164adadc5bae062be9dfc12b15631.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b046e2987762b99662e1d2c8f79de484.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f02dfd234e3af3ed89e362b733987f3b.png)