逻辑回归代价函数及其梯度下降公式

cost函数形式:

简单回顾一下几个变量的含义:

表1 cost函数解释
x(i)每个样本数据点的特征值
y(i)每个样本数据的所属类别标签
m样本数据点的个数
hθ(x)样本数据的概率密度函数,即某个数据属于1类(二分类问题)的概率
J(θ)代价函数,估计样本属于某类的风险程度,越小代表越有可能属于这类

 

我们的目标是求出θ,使得这个代价函数J(θ)的值最小,这里就需要用到梯度下降算法。

 

梯度下降算法

对于一个函数,我们要找它的最小值,有多种算法,这里我们选择比较容易用代码实现和符合机器学习步骤的梯度下降算法。

先来看看梯度下降算法中,自变量的迭代过程。表示如下

  

可以看到,这是一个θ值不断迭代的过程,其中α是学习速率,就是θ的移动“步幅”,后面的偏导数数就是梯度,可以理解为cost函数在θ当前位置,对于j位置特征的下降速度。

  对于二维空间,梯度可以理解为函数图像的切线斜率。即:特征是一维的

  对于多维特征,cost函数的图像就应该是这样的,下面举个例子:

  

                            图1 cost函数举例

 

 

  这是一个二维特征的cost函数的图像,这个时候,梯度有无限多个,我们不能只说cost函数的梯度,应该说,cost函数在某个方向上的梯度。例如,cost函数在θ0方向上,在(θ0=m,θ1=n)上的梯度就是cost函数与θ1=n这个平面的交线在(m,n)处的斜率。

  上面的描述比较抽象,简单说来,假设图像就是一个小山坡(有点像吧),你站在图像的(m,n)点处,朝θ0的方向看过去,看到的“山坡”的“坡度”就是上面所说的梯度了。

  这个迭代过程,用形象化的语言描述,就是:

    我站在山坡上,找到一个初始点θj,每次我沿着某一个方向走α这么长的路,由于总是朝着梯度的方向走,我总会走到山坡底(也就是cost函数的极小值)。

  然而,这样的“盆地”可能有多个,我们不同的走法,可能会走到不同的山底,如图:

                           图2 多“山谷”cost函数

 

  这里的两条路线分别走向不同的山谷,这就说明:梯度下降算法只能求出一个局部最小值,不一定是全局最小值,但这不影响它是一个好的方法。
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值