Andrew Ng机器学习课程笔记--week3

最新推荐文章于 2022-02-03 15:49:21 发布

marsggbo

最新推荐文章于 2022-02-03 15:49:21 发布

阅读量1.5k

点赞数

分类专栏：机器学习笔记文章标签：机器学习逻辑回归正则化参数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/marsggbo/article/details/76615651

版权

机器学习同时被 2 个专栏收录

20 篇文章 0 订阅

订阅专栏

12 篇文章 0 订阅

订阅专栏

Andrew Ng机器学习课程笔记–week3(逻辑回归&正则化参数)

Andrew Ng机器学习课程笔记–汇总

Logistic Regression

一、内容概要

Classification and Representation
- Classification
- Hypothesis Representation
- Decision Boundary
Logistic Regression Model
- 损失函数（cost function）
- 简化损失函数和梯度下降算法
- Advanced Optimization（高级优化方法）
Solving the problem of Overfitting
- 什么是过拟合？
- 正则化损失函数（cost function）
- 正则化线性回归（Regularized Linear Regression）
- 正则化逻辑回归（Regularized Logistic Regression）

二、重点&难点

1. Classification and Representation

1） Hypothesis Representation

这里需要使用到sigmoid函数–g(z)：

h θ (x) = g (θ T x)

$h_θ(x) = g(θ^Tx)$

z = θ T x

$z = θ^Tx$

g (z) = 1 1 + e - z

$g(z) = \frac{1}{1+e^{-z}}$

sigmoid函数

2) Decision Boundary

决策边界：

h θ (x) \geq 0.5 \to y = 1

$h_θ(x) ≥ 0.5 → y=1$

h θ (x) < 0.5 \to y = 0

$h_θ(x) < 0.5 → y=0$

等价于

g (z) \geq 0.5 \to y = 1

$g(z) ≥ 0.5 → y=1$

g (z) < 0.5 \to y = 0

$g(z) < 0.5 → y=0$

等价于

z \geq 0 \to y = 1

$z ≥0 → y=1$

z < 0 \to y = 0

$z < 0 → y=0$

2. Logistic Regression Model

1）逻辑回归的损失函数

这里之所以再次提到损失函数，是因为线性回归中的损失函数会使得输出呈现起伏，造成许多局部最优值，也就是说线性回归中的cost function在运用到逻辑回归时，将可能不再是凸函数。

逻辑回归的cost function如下：

J θ = 1 m \sum C o s t (h θ (x (i), y (i)))

$J_θ = \frac{1}{m} \sum {Cost}( h_θ(x^{(i)}, y^{(i)} ) )$

C o s t (h θ (x), y)) = - l o g (h θ (x)) i f y = 1

${Cost}(h_θ(x), y) ) = - log(h_θ(x)) \quad \quad if \quad y=1$

C o s t (h θ (x), y)) = - l o g (1 - h θ (x)) i f y = 0

${Cost}(h_θ(x), y) ) = - log(1 - h_θ(x)) \quad if \quad y=0$

结合图来理解：

y=1

y=1

由上图可知，y=1，h_θ(x)是预测值，
- 当其值为1时，表示预测正确，损失函数为0；
- 当其值为0时，表示错的一塌糊涂，需要大大的惩罚，所以损失函数趋近于∞。

y=0

y=0
上图同理

2) Simplified Cost Function and Gradient Descent

损失函数 cost function

C o s t (h θ (x), y) = - y l o g (h θ (x)) - (1 - y) l o g (1 - h θ (x))

$Cost(h_θ(x), y) = -ylog(h_θ(x)) - (1-y)log(1-h_θ(x))$

J_θ

J θ = - 1 m \sum C o s t (h θ (x), y)

$J_θ=-\frac{1}{m} \sum Cost(h_θ(x), y)$

= - 1 m \sum [- y i l o g (h θ (x (i))) - (1 - y i) l o g (1 - h θ (x (i)))]

$\quad =-\frac{1}{m} \sum [-y^{i}log(h_θ(x^{(i)})) - (1-y^i)log(1-h_θ(x^{(i)}))]$

梯度函数

3）高级优化方法

Advanced Optimization

如图左边显示的是优化方法，其中后三种是更加高级的算法，其优缺点由图邮编所示：
优点

不需要手动选择α
比梯度下降更快

缺点

更加复杂

后面三种方法只需了解即可，老师建议如果你不是专业的数学专家，没必要自己使用这些方法。。。。。。当然了解一下原理也是好的。

3. Solving the problem of Overfitting

1) 过拟合

主要说一下过拟合的解决办法：
1）减少特征数量

手动选择一些需要保留的特征
使用模型选择算法（model selection algorithm）

2）正则化

保留所有特征，但是参数θ的数量级（大小）要减小
当我们有很多特征，而且这些特征对于预测多多少少会由影响，此时正则化怎能起到很大的作用。

2）正则化损失函数

图示右边很明显是过拟合，因此为了纠正加入了正则化项：1000·θ₃²，为了使得J(θ)最小化，所以算法会使得θ₃趋近于0，θ₄也趋近于0。

正则化损失函数表达式：

J (θ) = 1 2 m [\sum i = 1 m (h θ (x (i)) - y (i)) 2 + λ \sum j = 1 n θ 2 j]

$J(θ)=\frac{1}{2m} [\sum_{i=1}^m( h_θ(x^{(i)}) - y^{(i)})^2 + λ\sum_{j=1}^n θ_j^2]$

m i n θ [1 2 m (\sum i = 1 m (h θ (x (i)) - y (i)) 2 + λ \sum j = 1 n θ 2 j)]

$min_θ [\frac{1}{2m} (\sum_{i=1}^m( h_θ(x^{(i)}) - y^{(i)})^2 + λ\sum_{j=1}^n θ_j^2)]$

3) 正则化线性回归

正则化梯度下降：

J (θ) = 1 2 m [\sum i = 1 m (h θ (x (i)) - y (i)) 2 + λ \sum j = 1 n θ 2 j]

$J(θ)=\frac{1}{2m} [\sum_{i=1}^m( h_θ(x^{(i)}) - y^{(i)})^2 + λ\sum_{j=1}^n θ_j^2]$

\partial J θ \partial θ j = 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j + λ m θ j

$\frac{∂J_θ}{∂θ_j} = \frac{1}{m} \sum_{i=1}^m( h_θ(x^{(i)} ) - y^{(i)} )x_j^{(i)} + \frac{λ}{m}θ_j$

Repeat{

θ 0 : = θ 0 - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) 0

$θ_0 := θ_0 - α\frac{1}{m}\sum_{i=1}{m}( h_θ(x^{(i)} ) - y^{(i)} )x_0^{(i)}$

θ j : = θ j - α [(1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) 0) + λ m θ j] j \in {1, 2, 3 \dots \dots n}

$θ_j := θ_j - α[(\frac{1}{m}\sum_{i=1}{m}( h_θ(x^{(i)} ) - y^{(i)} )x_0^{(i)} ) + \frac{λ}{m}θ_j ] \quad j∈\{1,2,3……n\}$

}

正则化正规方程

前面提到过，若m< n,那么X^TX是不可逆的，但是加上λ·L后则变为可逆的了。

4) 正则化逻辑回归

J (θ) = - 1 m {\sum i = 1 m [y (i) l o g (h θ (x (i))) + (1 - y (i)) l o g (1 - h θ (x (i)))]} + λ 2 m \sum j = 1 n θ 2 j

$J(θ)=-\frac{1}{m} \{\sum_{i=1}^m[ y^{(i)} log(h_θ(x^{(i)}))+(1-y^{(i)})log(1-h_θ(x^{(i)}))]\} + \frac{λ}{2m}\sum_{j=1}^nθ_j^2$

梯度下降过程

MARSGGBO♥原创

2017-8-2

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。