Coursera Machine Learning Week3 学习笔记

最新推荐文章于 2022-12-12 16:23:09 发布

JinbaoSite0144

最新推荐文章于 2022-12-12 16:23:09 发布

阅读量1.6k

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/codeforcer/article/details/61414476

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

五、逻辑回归（Logistic Regression）

在分类问题中，我们要预测变量的y是离散的值，所有我们将使用一种叫逻辑回归（Logistic Regression）算法。

5.1 分类和表示（Classification and Representation）

1、在分类问题中，我们尝试预测的是结果是否属于某一个类（例如正确或错误）。分类问题的例子有
（1）判断一封电子邮件是否是垃圾邮件
（2）判断一次金融交易是否是欺诈
（3）区别一个肿瘤是恶性还是良性

2、我们从二元分类问题开始考虑，将因变量可能属于的两个类分别称为负向类（negative class）和正向类（postiive class），则因变量 $y \in \{ 0,1 \}$ ，其中0表示负向类，1表示正向类。

3、如果我们用线性回归算法来解决分类问题，对于分类，y取值为0或者1，但如果你使用的是线性回归，那么假设函数的输出值可能远大于1，或者远小于0，即使所有训练样本的标签y都等于0或1。

4、逻辑回归算法的性质：输出值永远在0到1之间。

5.2 假设函数

1、逻辑回归模型的假设函数

h θ (x) = g (θ T x) g (z) = 1 1 + e - z

$\begin{aligned} & h_{\theta}(x)=g({\theta}^Tx) \newline & g(z)= \dfrac{1}{1+e^{-z}} \end{aligned}$
其中g函数是sigmoid函数，函数图形如下：

将上面两个合在一起，就得到了逻辑回归模型的假设函数：

h θ (x) = 1 1 + e - θ T x

$h_{\theta}(x)= \dfrac{1}{1+e^{ -{ \theta}^T x} }$

2、 $h_{\theta}(x)$ 的作用是对于给定的输入变量，根据选择的参数计算输出变量y=1的概率。

5.3 判定边界（Decision Boundary）

1、在逻辑回归中，我们预测：
（1）当 $h_{\theta}(x) \geq 0.5$ ，预测y=1
（2）当 $h_{\theta}(x) < 0.5$ ，预测y=0

2、模型实例

设置参数 $\theta$ 是向量[-3 1 1]，判断边界是直线 $y=-3+x_1+x_2$ ，则当 $-3+x_1+x_2 \geq 0$ 时，模型预测y=1

设置参数 $\theta$ 是向量[-1 0 0 1 1]，判断边界是一个圆点在原点且半径为1的圆形。

5.4 代价函数

1、如果我们用线性回归函数的代价函数，我们得到的代价函数将是一个非凸函数（non-convex function）

导致我们的代价函数有多个局部最小值，将影响我们使用梯度下降算法寻找全局最小值。

2、我们重新定义逻辑回归的代价函数

J (θ) = 1 m \sum i = 1 m C o s t (h θ (x (i)), y (i)) C o s t (h θ (x), y) = {- l o g (h θ (x)) - l o g (1 - h θ (x)) if y = 1 if y = 0

$\begin{aligned} & J(\theta ) = \dfrac {1}{m} \displaystyle \sum _{i=1}^m Cost \left (h_\theta ( x^{(i)} ) , y^{(i)} \right) \newline & Cost(h_{\theta}(x),y)= \begin{cases} -log(h_{\theta}(x)) & \text{if y = 1}\\ -log(1-h_{\theta}(x)) & \text{if y = 0} \end{cases} \end{aligned}$

3、 $h_{\theta}(x)$ 跟 $Cost(h_{\theta}(x),y)$ 的关系
（1）当y=1时， $Cost(h_{\theta}(x),y)=-log(h_{\theta}(x))$

（2）当y=0时， $Cost(h_{\theta}(x),y)=-log(h_{\theta}(1-x))$

4、构建 $Cost(h_{\theta}(x),y)$ 的特点
（1）当实际的y=1且 $h_{\theta}$ 也为1时代价为0，当y=1但 $h_{\theta}$ 不为1时代价随着 $h_{\theta}$ 的变小而变大
（2）当实际的y=0且 $h_{\theta}$ 也为0时代价为0，当y=1但 $h_{\theta}$ 不为1时代价随着 $h_{\theta}$ 的变大而变大

5、简化后的代价函数

J (θ) = - 1 m [\sum i = 1 m y (i) l o g (h θ (x (i))) + (1 - y (i)) l o g (1 - h θ (x (i)))]

$J(\theta ) = - \dfrac {1}{m} [ \displaystyle \sum _{i=1}^m y^{(i)}log( h_{\theta}(x^{(i)}) ) + (1-y^{(i)} )log( 1- h_{\theta}(x^{(i)}) ) ]$

5.5 梯度下降

（1） $Hypothesis：$

h θ (x) = 1 1 + e - θ T x

$h_{\theta}(x)= \dfrac{1}{1+e^{ -{ \theta}^T x} }$
（2）

CostFunction: $Cost Function:$

J (θ) = - 1 m [\sum i = 1 m y (i) l o g (h θ (x (i))) + (1 - y (i)) l o g (1 - h θ (x (i)))]

$J(\theta ) = - \dfrac {1}{m} [ \displaystyle \sum _{i=1}^m y^{(i)}log( h_{\theta}(x^{(i)}) ) + (1-y^{(i)} )log( 1- h_{\theta}(x^{(i)}) ) ]$
（3）

Goal: $Goal:$

m i n i m i z e θ J (θ)

$\mathop{minimize}_{\theta}J(\theta)$
（4）梯度下降算法

repeat} until convergence: {θ j : = θ j - α \partial \partial θ j J (θ) (simultaneously update all)

$\begin{aligned} \text{repeat} & \text{ until convergence: } \lbrace \newline & \theta_j := \theta_j - \alpha \frac{\partial}{\partial \theta_j} J(\theta) \newline & \text{(simultaneously update all)} \newline \rbrace& \end{aligned}$
将

J(θ) $J(\theta)$ 的偏导数带入可得

repeat} until convergence: {θ j : = θ j - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) \cdot x (i) j (simultaneously update all)

$\begin{aligned} \text{repeat} & \text{ until convergence: } \lbrace \newline & \theta_j := \theta_j - \alpha \frac{1}{m} \sum\limits_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)}) \cdot x_j^{(i)} \; \newline & \text{(simultaneously update all)} \newline \rbrace& \end{aligned}$

5.6 多类别分类（Multiclass Classification）

1、一对多（one-vs-all）方法：逻辑回归可以将数据一分为二（正类和负类），则我们分别将每一种类别都作为一次正类区分所有的类别，从而实现多类别分类。

2、原理
现在我们有一个训练集，用三角形表示y=1，方框表示y=2，叉叉表示y=3，下面我们要做的就是使用一个训练集，将其分成三个二元分类问题。

首先，我们从用三角形代表的类别1开始，类别1设定为正类，类别2和类别3定为负类，我们创建一个新的训练集，拟合出一个合适的分类器 $h_{\theta}^{(1)}(x)$ 。

然后，我们设定类别2为正类，类别1和类别3为负类，创建一个新的训练集，拟合出一个新的分类器 $h_{\theta}^{(2)}(x)$ ，

最后，我们设定类别3为正类，类别1和类别2为负类，创建第三个训练集，拟合出分类器 $h_{\theta}^{(3)}(x)$ 。

我们最终得到一个模型 $h_{\theta}^{(i)}(x) (i=1,2,3)$

在我们需要做预测时，我们将所有分类器都运行一遍，然后对每一个输入变量，选择最高可能性的输出变量。

也就是说，对于逻辑回归分类器 $h_{\theta}^{(i)}(x)$ ，我们在三个分类器里面输入一个新的x值，然后我们选择一个让 $h_{\theta}^{(i)}(x)$ 最大的 $i$ ，作为 $y=i$ 的预测结果。

六、正则化（Regularization）

6.1 过拟合（overfitting）

第一个模型没有很好拟合训练数据，我们把这个称为欠拟合（underfitting），或者另一个术语高偏差（high bias）；
第二个模型很好拟合了训练数据，我们称为恰好拟合（Just right）。
第三个模型非常好的拟合训练数据，但过于强调拟合原始数据，我们称为过拟合（overfitting），或者高方差（high variance）；

1、过拟合：如果我们有太多的变量，使得假设函数很好的拟合率训练数据集，但是无法泛化到新的数据样本中，以至于无法预测正确的数据样本结果（泛化是指一个假设模型能够应用到新样本的能力）。

2、解决过拟合的方法：
（1）减少特征变量的数量，手工选择保留哪些特征，或者使用一些模型选择算法来处理。
（2）正则化，保留所有特征，但是减少参数的大小。

6.2 正规化代价函数

为了防止过拟合，我们对代价函数进行正规化：

J (θ) = 1 2 m [\sum i = 1 m (h θ (x (i)) - y (i)) 2 + λ \sum j = 1 n θ 2 j]

$J(\theta) = \dfrac {1}{2m} [ \displaystyle \sum _{i=1}^m \left (h_\theta ( x^{(i)} ) - y^{(i)} \right)^2 + \lambda \sum_{j=1}^n \theta_j^2 ]$

λ $\lambda$ 称为 正则化参数（Regularization Parameter），如果选择的正则化参数

λ $\lambda$ 过大，则会把所有的参数都最小化了，导致模型变成

hθ(x)=θ0 $h_\theta (x) =\theta_0$ 。

为什么要增加一项 $\lambda \displaystyle \sum_{j=1}^n \theta_j^2$ ？

因为一个模型中真正重要的参数可能并不多，而我们的假设函数里面包含很多参数，为了使某些不重要的参数不起作用，我们可以将其尽可能近似于0，于是我们通过控制 $\lambda$ 的大小来达到这个目的。

所以对于正则化，我们取一个合理的 $\lambda$ 的值，就能很好的应用正则化。

6.3 正则化线性回归（Regularized Linear Regression）

1、正则化线性回归的代价函数

J (θ) = 1 2 m [\sum i = 1 m (h θ (x (i)) - y (i)) 2 + λ \sum j = 1 n θ 2 j]

$J(\theta) = \dfrac {1}{2m} [ \displaystyle \sum _{i=1}^m \left (h_\theta ( x^{(i)} ) - y^{(i)} \right)^2 + \lambda \sum_{j=1}^n \theta_j^2 ]$

2、梯度下降算法
由于 $\theta_0$ 不参与正则化，所以我们将梯度下降算法分成两种情形

repeat} until convergence: {θ 0 : = θ 0 - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) \cdot x (i) 0 θ j : = θ j - α [1 m \sum i = 1 m (h θ (x (i)) - y (i)) \cdot x (i) j + λ m θ j] (simultaneously update all)

$\begin{aligned} \text{repeat} & \text{ until convergence: } \lbrace \newline & \theta_0 := \theta_0 - \alpha \frac{1}{m} \sum\limits_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)}) \cdot x_0^{(i)} \; \newline & \theta_j := \theta_j - \alpha [ \frac{1}{m} \sum\limits_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)}) \cdot x_j^{(i)} + \frac{ \lambda }{m} \theta_j ] \; \newline & \text{(simultaneously update all)} \newline \rbrace& \end{aligned}$
对第二个式子进行调整可得

θ j : = θ j (1 - λ m α) - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) \cdot x (i) j

$\theta_j := \theta_j (1-\frac{\lambda}{m} \alpha) - \alpha \frac{1}{m} \sum\limits_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)}) \cdot x_j^{(i)}$
可以看出正则化线性回归的梯度下降算法的变化在于，每次都在原有算法更新规则的基础上令

θ $\theta$ 值减少了一个额外的值。

3、正规化正规方程

θ = (X T X + λ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ 00 ⋮ 0 01 ⋮ 0 \dots \dots \dots 00 ⋮ 1 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥) - 1 X T y

$\theta = ( X^T X + \lambda \left[\begin{array}{cccc} 0 & 0 & \cdots & 0\\ 0 & 1 & \cdots & 0\\ \vdots & \vdots & & \vdots \\ 0 & 0 & \cdots & 1 \end{array}\right] )^{-1} X^T y$
其中矩阵的大小是

(n+1)∗(n+1) $(n+1)*(n+1)$ 。

6.4 正则化逻辑回归（Regularized logistics regression）

1、我们同样也给代价函数增加一个正则化的表达式，代价函数为

J (θ) = - 1 m [\sum i = 1 m y (i) l o g (h θ (x (i))) + (1 - y (i)) l o g (1 - h θ (x (i)))] + λ 2 m \sum j = 1 n θ 2 j

$J(\theta ) = - \dfrac {1}{m} [ \displaystyle \sum _{i=1}^m y^{(i)}log( h_{\theta}(x^{(i)}) ) + (1-y^{(i)} )log( 1- h_{\theta}(x^{(i)}) ) ] + \frac{\lambda}{2m} \displaystyle \sum_{j=1}^{n} \theta_j^2$

2、梯度下降算法

repeat} until convergence: {θ 0 : = θ 0 - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) \cdot x (i) 0 θ j : = θ j - α [1 m \sum i = 1 m (h θ (x (i)) - y (i)) \cdot x (i) j + λ m θ j] (simultaneously update all)

JinbaoSite0144

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Coursera Machine Learning Week3 学习笔记

五、逻辑回归（Logistic Regression）在分类问题中，我们要预测变量的y是离散的值，所有我们将使用一种叫逻辑回归（Logistic Regression）算法。5.1 分类和表示（Classification and Representation）1、在分类问题中，我们尝试预测的是结果是否属于某一个类（例如正确或错误）。分类问题的例子有（1）判断一封电子邮件是否是垃圾邮件（2）
复制链接

扫一扫

专栏目录