Third week of machine learning on Coursera

最新推荐文章于 2022-02-04 16:23:56 发布

腾原

最新推荐文章于 2022-02-04 16:23:56 发布

阅读量228

点赞数

分类专栏： coursera机器学习笔记

本文链接：https://blog.csdn.net/tengyuan93/article/details/78089440

版权

coursera机器学习笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Third week of machine learning on Coursera

@(Coursera)

Classification

Logistic Regression Model其实是个分类算法，逻辑回归的假设函数其实是线性模型的基础上加上了个sigmod()函数：

h θ (x) = g (θ T x)

$h_\theta(x)=g(\theta^Tx)$

g (z) = 1 1 + e - z ， 表 示 s i g m o i d 函 数 .

$g(z)=\frac{1}{1+e^{-z}}，表示sigmoid函数.$

Descision Boundary(决策边界)

Sigmoid()函数图像为：
这里写图片描述
- 当 $z \ge0时，g(z)\ge0.5,判定为1$ ;
- 当 $z \le 0时，g(z)<0.5,判定为0$ ;

所以当 $\theta^Tx\ge0,h_\theta(x)=1.$
此时令 $\theta^Tx=0$ ，得到的图形就是训练集的决策边界。
这里写图片描述
例如，如上图中得到的直线 $x_1+x_2=3$ 就是训练集的决策边界。

线性模型如上篇博客所述《second week》，它的假设函数和损失函数分别为

h θ (x) = θ T X

$h_\theta(x)=\theta^TX$

J (θ) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

$J(\theta)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$
对线性模型求解最优的

θ $\theta$ 从而保证损失函数最小的方法是通过损失函数对每个

θj $\theta_j$ 求梯度，不断的更新

θj $\theta_j$ ，从而使得损失函数到达全局最优点。即梯度下降法。
备注：今天在回顾梯度下降法的时候，发现有个概念理解不对，求解损失函数的最小值时，为什么不能直接通过损失函数对

θ $\theta$ 求导=0，来求解

Jθ $J_{\theta}$ 的最小值呢？因为损失函数对

θ $\theta$ 的导数一定可以求出来，但是令导数为0时，

θ $\theta$ 的解却不一定可以求出来。所以也是为什么使用梯度下降法的原因，通过多次迭代使得损失函数逐渐逼近最小值。

Logistic Regression的假设函数：

h θ (x) = 1 1 + e - θ T x

$h_\theta(x)=\frac{1}{1+e^{-\theta^Tx}}$
由于逻辑回归是个分类算法，它的假设函数值表示的是对应某个类的概率。

h (i) θ (x) = P (y = i | x; θ), 二 分 类 问 题 中 i = 1, 2

$h_\theta^{(i)}(x)=P(y=i\ |\ x;\theta),\ 二分类问题中i=1,2$
它的损失函数不同于线性模型选择的均方损失函数(最小二乘法)，而是选择的是 log对数损失函数。
注：关于损失函数的讲解请看这篇博客机器学习-损失函数
损失函数：

J (θ) = 1 m \sum i = 1 m C o s t (h θ (x i), y (i))

$J(\theta)=\frac{1}{m}\sum_{i=1}{m}Cost(h_\theta(x^{i}),y^{(i)})$

C o s t (h θ (x), y) = {- l o g (h θ (x)), y = 1; - l o g (1 - h θ (x)), y = 0;

$Cost(h_\theta(x),y)=\begin{cases}-log(h_\theta(x)),y=1;\\ -log(1-h_\theta(x)),y=0; \end{cases}$
上面两式结合得：

C o s t = - y l o g (h θ (x)) - (1 - y) l o g (1 - h θ (x))

$Cost=-ylog(h_\theta(x))-(1-y)log(1-h_\theta(x))$

J (θ) = 1 m \sum i = 1 m (- y l o g (h θ (x)) - (1 - y) l o g (1 - h θ (x)))

$J(\theta)=\frac{1}{m}\sum_{i=1}^{m}(-ylog(h_\theta(x))-(1-y)log(1-h_\theta(x)))$
为了使

J(θ) $J(\theta)$ 最小，重复：

θ j : θ j - α \partial \partial θ j J (θ) = 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j

$\theta_j:\theta_j-\alpha\frac{\partial}{\partial \theta_j}J(\theta)=\frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}$
注:

J(θ)对θ的求导我本人没有求解出来，看视频AndrewNg直接得出结论了。 $J(\theta)对\theta的求导我本人没有求解出来，看视频Andrew Ng直接得出结论了。$

解决过拟合：

1、减少特征数量
- 手动选择需要保留的特征；
- 模型选择算法；

2、正则化
- 保留所有的特征，但是减小参数 $\theta_j$ 的数量级；
- 当我们有很多特征，每一个都对预测 $y$ 值有用时，选择正则化；

Regularized linear regression

J (θ) = 1 2 m [\sum i = 1 m (h θ (x (i)) - y (i)) 2 + λ \sum j = 1 n θ 2 j]

$J(\theta)=\frac{1}{2m}[\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^n\theta_j^2]$
上述损失函数

J(θ) $J(\theta)$ 增加了一个正则项

λ∑nj=1θ2j $\lambda\sum_{j=1}^n\theta_j^2$ ，注意这里的

j从1,...,n. $j从1,...,n.$
所以对应梯度下降迭代：

θ 0 : θ 0 - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) 0

$\theta_0:\theta_0-\alpha\frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_0^{(i)}$

θ j : = θ j - α [1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j + λ m θ j] = θ j (1 - α λ m) - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j

$\theta_j:=\theta_j-\alpha[\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}+\frac{\lambda}{m}\theta_j]\\ =\theta_j(1-\alpha\frac{\lambda}{m})-\alpha\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}$
上述

1−αλm<1 $1-\alpha\frac{\lambda}{m}<1$ ，依次来减小

θj $\theta_j$ 的值，避免

θj $\theta_j$ 那项过拟合。

对于正规方程中，这里写图片描述

腾原

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Third week of machine learning on Coursera

Third week of machine learning on Coursera@(Coursera)ClassificationLogistic Regression Model其实是个分类算法，逻辑回归的假设函数其实是线性模型的基础上加上了个sigmod()函数：hθ(x)=g(θTx)h_\theta(x)=g(\theta^Tx) g(z)=11+e−z，表示sigmoid函数.g(
复制链接

扫一扫

专栏目录