逻辑回归

最新推荐文章于 2022-04-14 22:20:10 发布

wow844705296

最新推荐文章于 2022-04-14 22:20:10 发布

阅读量184

点赞数

分类专栏：机器学习文章标签：机器学习逻辑回归

本文链接：https://blog.csdn.net/wow844705296/article/details/68059968

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一、假设函数

当处理分类问题时，尤其是二分类问题，应该限定预测的结果为 $0\leqslant y \leqslant 1$ ,所以需要一个分类函数把结果正好限定在[0,1]内，逻辑函数 $g(z)=\frac{1}{1+e^{-z}}$ 正是这样的一个函数
这里写图片描述
如果我们假设 $z=\theta^Tx$ ,那么

h θ (x) = 1 1 + e - θ T x

$h_{\theta}(x)=\frac{1}{1+e^{-\theta^Tx}}$
现在

h(x) $h(x)$ 对于任何样本的预测值都是一个介于0,1之间的值，如果

h(x)=0.7 $h(x)=0.7$ ，我们就可以说

P(y=1|x;θ)=0.7 $P(y=1|x;\theta)=0.7$ ,意思就再说在预测参数为

θ $\theta$ 的情况下样本x为1的概率为0.7，相应的预测值为0的概率为0.3。

二、决策边界

从上面所讲的我们可以知道，当 $\theta^Tx\geqslant0$ 时， $h_{\theta}(x)$ >0.5。
如果我们定义 $h_{\theta}(x)\geqslant0$ 的样本因为它的 $P(y=1|x;\theta)\geqslant0.5$ ,所以我们把这样的样本分类为1，<script type="math/tex" id="MathJax-Element-210"><0</script>的样本分类为0,那么 $\theta^Tx=0$ 恰好就像一个边界将样本分成两个部分，从而实现了分类任务。
　　当 $\theta^Tx$ 是一个一次方程的时候，恰好是一个直线。但是有时候样本并不是一条直线可以划分的，这时候我们就可以采用类似线性回归的办法，采用多项式的办法。如 $\theta^Tx=\theta_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}+\theta_{3}x_{1}^2+\theta_{4}x_{2}^2$ ,我们令 $\theta=[-1,0,0,1,1]$ `那么` $\theta^Tx=-1+x_{1}^2+x_{2}^2$ ，这时候的决策边界就是一个圆，同理我们可以设计更复杂的决策边界适应更复杂的样本。但是不管什么样的决策边界，最后决定他形状的是参数 $\theta$ 。

三、成本函数

这里不能采用与线性回归相同的函数，因为运用到逻辑回归，会成波状函数，有许多局部最小值。我们可以采用类似的函数：

J (θ) = 1 m \sum i = 1 m C o s t (h θ (x i), y i)

$J(\theta)=\frac{1}{m}\sum_{i=1}^{m}Cost(h_{\theta}(x^{i}),y^i)$

C o s t (h θ (x), y) = - l o g (h θ (x)) i f y = 1

$Cost(h_{\theta}(x),y)=-log(h_{\theta}(x)) if y=1$

C o s t (h θ (x), y) = - l o g (1 - h θ (x)) i f y = 0

$Cost(h_{\theta}(x),y)=-log(1-h_{\theta}(x)) if y=0$
因为当y=1的时候，cost函数的图像如图所示：
这里写图片描述

从图我们可以看出当

h(x) $h(x)$ 趋近于y的时候，Cost函数值越小，趋近于0的时候则是无穷大。同理y=0的情况下也是。
我们可以把两个Cost函数合二为一：

C o s t (h θ (x), y) = - y l o g (h θ (x)) - (1 - y) l o g (1 - h θ (x))

$Cost(h_{\theta}(x),y)=-ylog(h_{\theta}(x))-(1-y)log(1-h_{\theta}(x))$

J (θ) = - 1 m \sum i = 1 m [y (i) l o g (h θ (x (i))) + (1 - y (i)) l o g (1 - h θ (x (i))]

$J(\theta)=-\frac{1}{m}\sum_{i=1}^{m}[y^{(i)}log(h_{\theta}(x^{(i)}))+(1-y^{(i)})log(1-h_{\theta}(x^{(i)})]$
如果用向量表示：

h = g (X θ)

$h=g(X\theta)$

J (θ) = 1 m (- y T l o g (h) - (1 - y) l o g (1 - h))

$J(\theta)=\frac{1}{m}(-y^Tlog(h)-(1-y)log(1-h))$

四、梯度下降

θ j = θ j - α m \sum i = 1 m (h θ (x (i) - y (i)) x (i) j

$\theta_{j}=\theta_{j}-\frac{\alpha}{m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)}-y^{(i)})x_{j}^{(i)}$
可以看出是和线性回归相同的，不同的是这里的

hθ(x) $h_{\theta}(x)$ 和线性回归不同。
用向量表示：

θ = θ - α m X T (g (X θ) - y ⃗)

$\theta=\theta-\frac{\alpha}{m}X^T(g(X\theta)-\vec{y})$

五、高级优化

“Conjugate gradient”, “BFGS”, and “L-BFGS” 是三种比梯度下降速度更快但是更加复杂的算法去优化 $\theta$ ，我们比不需要写出这三种算法，直接调用现成的库就可以了。为了使用这些现成库我们首先要计算：
$J(\theta)$ `和` $\frac{\partial}{\partial\theta_{j}}J(\theta)$ 。对此我们可以专门写一个函数：

function [jVal, gradient] = costFunction(theta)
  jVal = [...code to compute J(theta)...];
  gradient = [...code to compute derivative of J(theta)...];
end

接下来我们选用一种优化算法作为options,然后用fminunc()函数去实现优化。

options = optimset('GradObj', 'on', 'MaxIter', 100);
initialTheta = zeros(2,1);
   [optTheta, functionVal, exitFlag] = fminunc(@costFunction, initialTheta, options);

六、多分类问题

上面谈的只是二分类问题，当处理多分类的时候， $y=(0,1,2,3...n)$ ，我们就可以把它转化成n+1个二分类问题。

h 0 θ (x) = P (y = 0 | x; θ)

$h_{\theta}^{0}(x)=P(y=0|x;\theta)$

h n θ (x) = P (y = 0 | x; θ)

$h_{\theta}^{n}(x)=P(y=0|x;\theta)$

p r e d i c t i o n = m a x i (h i θ (x))

$prediction=max_{i}(h_{\theta}^{i}(x))$

wow844705296

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
逻辑回归

一、假设函数当处理分类问题时，尤其是二分类问题，应该限定预测的结果为0⩽y⩽10\leqslant y \leqslant 1,所以需要一个分类函数把结果正好限定在[0,1]内，逻辑函数g(z)=11+e−zg(z)=\frac{1}{1+e^{-z}}正是这样的一个函数如果我们假设$z=\theta^Tx$,那么 hθ(x)=11+e−θTxh_{\theta}(x)=\frac{1}
复制链接

扫一扫