转：NG学习笔记3

最新推荐文章于 2024-05-11 17:32:52 发布

weixin_41714120

最新推荐文章于 2024-05-11 17:32:52 发布

阅读量219

点赞数

逻辑回归（Logistic Regression）

逻辑回归虽然带有“回归”两个字，实际上却是分类问题，此时要预测的值y是离散的。例如判断一封邮件是否是垃圾邮件，判断肿瘤是恶性还是良性。

先从二元逻辑回归问题开始，也就是y的值只有0和1两种取法。

假说模型

假设我们采用之前线性回归的模型

h (x) = θ T x

线性拟合后，我们用h(x)大于0.5预测1，小于0.5预测0 。看上去此时它工作良好。但是，如果新加一个数据点

这会导致预测错误。可以看出线性回归的模型不再适合这个分类问题了，因为此时h(x)的值并不是0到1之间，而可能大于1.

因此在逻辑回归中，我们需要引入新的模型

h (x) = g (θ T x)

其中的g代表逻辑函数（logistic function），其中最常用的一种叫做S 形函数（Sigmoid function），其定义如下：

g (z) = 1 1 + e - z

当z趋于负无穷时，g(z)趋向0；当z趋于正无穷时，g(z)趋向于1；当z=0时，g(z) = 0.5 。g(z)的图形大致如下：

合起来就可以得到用于逻辑回归的模型

h θ (x) = 1 1 + e - θ T x

此时h(x)给出的结果是x对应的输出y=1的概率，也就是

h (x) = P (y = 1 | x; θ)

当h(x)大于0.5时，我们预测结果为1；当h(x)小于0.5时，预测结果为0。根据上面的图形

θ T x>0 时，对应h(x) > 0.5，应该预测结果为1；

θ T x<0 时，对应h(x) < 0.5，应该预测结果为0；

决策边界（Decision Boundary）

模型中的分界线，将预测为1的区域和预测为0的趋于分成两部分。

代价函数（Cost Function）

在线性回归模型中的代价函数是每个实例误差的平方和

J (θ 0, θ 1, \dots, θ n) = 1 2 m \sum i = 0 m (h (x (i)) - y (i)) 2

但是逻辑回归中，h(x)的形式变了。如果沿用上述公式，将导致J()是一个非凸函数，不利于我们找最值。因此，代价函数也需要重新定义：

J (θ) = 1 m \sum i = 1 m (C o s t (h (x (i)), y (i)))

其中

C o s t (h (x), y) = {- l o g (h (x)), - l o g (1 - h (x)), if y = 1 if y = 0

h(x)和Cost(h(x), y)之间的关系如下：

当y=1时，h(x)越接近1，Cost越小；h(x)越接近0，Cost越大。

当y=0时，h(x)越接近1，Cost越大；h(x)越接近0，Cost越小。

因此，Cost的定义是合理的，估计误差越大，代价就越大。

为了把Cost从两种情形合并为一种，可以写成如下的形式：

C o s t (h (x), y) = - y l o g (h (x)) - (1 - y) l o g (1 - h (x))

代入到代价函数中得到：

J (θ) = - 1 m \sum i = 1 m (y (i) l o g (h (x (i))) + (1 - y (i)) l o g (1 - h (x (i))))

之后我们便可以使用梯度下降算法来求使代价函数最小的参数值了

θ j : = θ j - α \partial \partial θ j J (θ)

求导后得到（待推导）

θ j : = θ j - α m \sum i = 1 m ((h (x (i)) - y (i)) x (i) j)

这看上去和线性回归中的更新规则相似，但却是不同的。因为其中的h(x)函数不一样。

线性回归中的假设函数

h (x) = θ T x

逻辑回归中的假设函数

h (x) = g (θ T x) = 1 1 + e - θ T x

调用matlab中的高级算法

可以调用共轭梯度（Conjugate Gradient）,局部优化法(Broyden fletcher goldfarb shann,BFGS)和有限内存局部优化法(LBFGS)等高级算法。只需要告诉计算机如何求 J(θ) 和 ∂∂θ j J(θ) 。

这些高级算法的特点：不必手动选择学习率α ，收敛速度很快；实现复杂，不过库中已经实现了。

下面是一个例子：

我们要来求使J(θ) 最小的参数值。需要实现一个函数

function [jVal, gradient] = costFunc(theta) jVal = (theta(1) - 5)^2 + (theta(2) - 5)^2; gradient = zeros(2, 1); gradient(1) = 2 * (theta(1) - 5); gradient(2) = 2 * (theta(2) - 5); end

function [ jVal , gradient ] = costFunc ( theta )

jVal = ( theta ( 1 ) - 5 ) ^ 2 + ( theta ( 2 ) - 5 ) ^ 2 ;

gradient = zeros ( 2 , 1 ) ;

gradient ( 1 ) = 2 * ( theta ( 1 ) - 5 ) ;

gradient ( 2 ) = 2 * ( theta ( 2 ) - 5 ) ;

end

调用

options = optimset('GradObj', 'on', 'MaxIter', 100); >> initialTheta = zeros(2, 1); >> [optTheta, functionVal, exitFlag] = fminunc(@costFunc, initialTheta, options) Local minimum found. Optimization completed because the size of the gradient is less than the default value of the function tolerance. <stopping criteria details> optTheta = 5 5