吴恩达【机器学习】第七章 Logistic回归

Nicole_177

于 2019-04-11 21:45:43 发布

阅读量167

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/nicole_177/article/details/89220861

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

吴恩达【机器学习】第七章逻辑回归Logistic Regression

7.1 分类Classification

预测离散的变量
举例证明线性回归不能很好地处理分类问题
逻辑回归(Logistic Regression)是解决分类(Classification)问题的一种算法

7.2 假设函数

逻辑回归，该模型的输出变量范围始终在0和1之间。
逻辑回归模型的假设是：
$h_\theta \left( x \right)=g\left(\theta^{T}x \right)$
$g\left( z \right)=\frac{1}{1+{{e}^{-z}}}$
其中：
1. $X$ 代表特征向量
2. $g$ 代表逻辑函数（logistic function)是一个常用的逻辑函数，这里用Sigmoid函数（Sigmoid function），公式为： $g\left( z \right)=\frac{1}{1+{{e}^{-z}}}$ 。

python代码实现：

import numpy as np
    
def sigmoid(z):
   return 1 / (1 + np.exp(-z))

该函数的图像为：
在这里插入图片描述

对模型的理解：
$h_\theta \left( x \right)=g\left(\theta^{T}x \right)$
$g\left( z \right)=\frac{1}{1+{{e}^{-z}}}$ 。
$h_\theta \left( x \right)$ 的作用是：对于给定的输入变量，根据选择的参数计算输出变量=1的可能性（estimated probablity）即 $h_\theta \left( x \right)=P\left( y=1|x;\theta \right)$ 。
例如，如果对于给定的 $x$ ，通过已经确定的参数计算得出 $h_\theta \left( x \right)=0.7$ ，则表示有70%的几率 $y$ 为正向类，相应地 $y$ 为负向类的几率为1-0.7=0.3。

7.3 决策界限Decision Boundary

决策边界是由参数 $\theta$ 决定的，而不是由训练集决定的
训练集是用来拟合(fit)参数 $\theta$ 的
举例：
我们可以用非常复杂的模型来适应非常复杂形状的判定边界。

7.4 代价函数

如果用线性回归里用的差平方作为cost函数，再加上非线性的sigmiod函数，会使得最终函数非凸(non-convex)，有很多局部最小值，梯度下降很难找到全局最优解
线性回归的代价函数为：
$J\left( \theta \right)=\frac{1}{m}\sum\limits_{i=1}^{m}{\frac{1}{2}{{\left( {h_\theta}\left({x}^{\left( i \right)} \right)-{y}^{\left( i \right)} \right)}^{2}}}$ 。
我们重新定义逻辑回归的代价函数为：
$J\left( \theta \right)=\frac{1}{m}\sum\limits_{i=1}^{m}{{Cost}\left( {h_\theta}\left( {x}^{\left( i \right)} \right),{y}^{\left( i \right)} \right)}$ ，
其中 ${h_\theta}\left( x \right)$ 与 $Cost\left( {h_\theta}\left( x \right),y \right)$ 之间的关系如下图所示：
这样构建的 $Cost\left( {h_\theta}\left( x \right),y \right)$ 函数的特点是：
1. 当实际的 $y = 1$ 且 ${h_\theta}\left( x \right)$ 也为 1 时误差为 0，
  当 $y = 1$ 但 ${h_\theta}\left( x \right)$ 不为1时误差随着 ${h_\theta}\left( x \right)$ 变小而变大；
2. 当实际的 $y = 0$ 且 ${h_\theta}\left( x \right)$ 也为 0 时代价为 0，
  当 $y = 0$ 但 ${h_\theta}\left( x \right)$ 不为 0时误差随着 ${h_\theta}\left( x \right)$ 的变大而变大。
将构建的 $Cost\left( {h_\theta}\left( x \right),y \right)$ 简化如下：
$Cost\left( {h_\theta}\left( x \right),y \right)=-y\times log\left( {h_\theta}\left( x \right) \right)-(1-y)\times log\left( 1-{h_\theta}\left( x \right) \right)$
代入代价函数得到：
$J\left( \theta \right)=\frac{1}{m}\sum\limits_{i=1}^{m}{[-{{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)-\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right)]}$
即： $J\left( \theta \right)=-\frac{1}{m}\sum\limits_{i=1}^{m}{[{{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)+\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right)]}$

Python代码实现：

import numpy as np
    
def cost(theta, X, y):    
	theta = np.matrix(theta)
	X = np.matrix(X)
	y = np.matrix(y)
	first = np.multiply(-y, np.log(sigmoid(X* theta.T)))
	second = np.multiply((1 - y), np.log(1 - sigmoid(X* theta.T)))
	return np.sum(first - second) / (len(X))

7.5 简化代价函数和梯度下降

简化代价函数
梯度下降

7.6 高级优化

用来使代价函数最小化的高级算法

梯度下降
共轭梯度法 (Conjugate Gradient)
BFGS (变尺度法)
L-BFGS (限制变尺度法)

7.7 多类别分类问题：一对多

举例
对比
做法："一对余"方法

我们将多个类中的一个类标记为正向类（ $y = 1$ ），然后将其他所有类都标记为负向类，这个模型记作 $h_\theta^{\left( 1 \right)}\left( x \right)$ 。
接着，类似地第我们选择另一个类标记为正向类（ $y = 2$ ），再将其它类都标记为负向类，将这个模型记作 $h_\theta^{\left( 2 \right)}\left( x \right)$ ,依此类推。
然后，我们得到一系列的模型简记为： $h_\theta^{\left( i \right)}\left( x \right)=p\left( y=i|x;\theta \right)$ 其中： $i=\left( 1,2,3....k \right)$
最后，在我们需要做预测时，我们将所有的分类机都运行一遍，然后对每一个输入变量，都选择最高可能性的输出变量。即： $\mathop{\max}\limits_i h_\theta^{\left( i \right)}\left( x \right)$

Nicole_177

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
吴恩达【机器学习】第七章 Logistic回归

吴恩达【机器学习】第七章逻辑回归Logistic Regression7.1 分类Classification预测离散的变量举例证明线性回归不能很好地处理分类问题逻辑回归(Logistic Regression)是解决分类(Classification)问题的一种算法7.2 假设函数逻辑回归，该模型的输出变量范围始终在0和1之间。逻辑回归模型的假设是：hθ(x)=g(θT...
复制链接

扫一扫