逻辑回归机器学习基础(2)

最新推荐文章于 2021-11-11 21:38:30 发布

海上机械师

最新推荐文章于 2021-11-11 21:38:30 发布

阅读量930

点赞数 1

分类专栏：算法数值分析机器学习文章标签：逻辑回归正则化过拟合垃圾邮件恶性肿瘤

本文链接：https://blog.csdn.net/i_love_home/article/details/50608504

版权

算法同时被 3 个专栏收录

16 篇文章 0 订阅

订阅专栏

机器学习

15 篇文章 0 订阅

订阅专栏

数值分析

9 篇文章 1 订阅

订阅专栏

1 分类与表达式

1.1 分类

例子：

Email：垃圾（span）邮件/非垃圾（not span）邮件
在线交易：是/否欺诈（Fraudulent）
肿瘤：恶性/良性

$y \in {0, 1} : {N e g a t i v e, P o s i t i o n}$ $y \in \left\{ {0,1} \right\}:\left\{ {{\rm{Negative}},{\rm{Position}}} \right\}$ $\to y \in {0, 1, 2, 3, \dots} : 多类$ $\to y \in \left\{ {0,1,2,3, \cdots } \right\}: 多类$

逻辑回归

$0 \le {h_\theta }\left( x \right) \le 1$
离散变量： $\{0,1\}$

逻辑回归01

1.2 假设函数的表达式

h θ (x) = g (θ T x) g (z) = 1 1 + e - z ⎫ ⎭ ⎬ ⎪ ⎪ ⎪ ⎪ \Rightarrow h θ (x) = 1 1 + e - θ T x

$\left. \begin{array}{ccccc} {h_\theta }\left( x \right) = g\left( {{\theta ^T}x} \right)\\ g\left( z \right) = \frac{1}{{1 + {e^{ - z}}}} \end{array} \right\} \Rightarrow {h_\theta }\left( x \right) = \frac{1}{{1 + {e^{ - {\theta ^T}x}}}}$

hθ(x) $h_θ(x)$ 为

y=1 $y = 1$ 的概率值，当取输入为

x $x$ 时，

$\to {h_\theta }\left( x \right) = p\left\{ {y = 1|x;\theta } \right\}$
${s}{.t}{.}~~ p\left\{ {y = 0|x;\theta } \right\} + p\left\{ {y = 1|x;\theta } \right\} = 1$

1.3 决策边界

${h_\theta }\left( x \right) = g\left( {{\theta _0} + {\theta _1}{x_1} + {\theta _2}{x_2}} \right)$

假定 $y = 1$ ，当 $h_θ(x) ≥ 0.5$ （阈值）

则 $g(θ^Tx) ≥ 0.5$ （阈值），即 $θ^Tx ≥ 0$ ， $θ_0 + θ_1x_1 + θ_2x_2 ≥ 0$

线性决策边界

1.4 非线性决策边界

h θ (x) = g (θ 0 + θ 1 x 1 + θ 2 x 2 + θ 3 x 21 + θ 4 x 22) θ 0 = θ 1 = θ 3 = - 1 θ 2 = 0 θ 4 = 1 ⎫ ⎭ ⎬ ⎪ ⎪ \Rightarrow - 1 + x 21 + x 22 = 0

$\begin{array}{ccccc} {h_\theta }\left( x \right) = g\left( {{\theta _0} + {\theta _1}{x_1} + {\theta _2}{x_2} + {\theta _3}x_1^2 + {\theta _4}x_2^2} \right)\\ \left. \begin{array}{ccccc} {\theta _0} = & - 1\\ {\theta _1} = & {\theta _2} = 0\\ {\theta _3} = & {\theta _4} = 1 \end{array} \right\} \Rightarrow - 1 + x_1^2 + x_2^2 = 0 \end{array}$
训练集

→ $\to$ （拟合）

→ $\to$ 边界

非线性决策边界

2 逻辑回归模型

2.1 代价函数

$J\left( \theta \right) = \frac{1}{m}\sum\limits_{i = 1}^m {Cost\left( {{h_\theta }\left( {{x^{\left( i \right)}}} \right),{y^{\left( i \right)}}} \right)}$
其中，

C o s t (h θ (x), y) = {- log (h θ (x)), - log (1 - h θ (x)), y = 1 y = 0

$Cost\left( {{h_\theta }\left( x \right),y} \right) = \left\{ \begin{array}{ccccc} - \log \left( {{h_\theta }\left( x \right)} \right), & y = 1\\ - \log \left( {1 - {h_\theta }\left( x \right)} \right), & y = 0 \end{array} \right.$
其中

J(θ) $J(θ)$ 为 凸函数。

逻辑回归代价函数

2.2 简单的代价函数与梯度下降法

$Cost\left( {{h_\theta }\left( x \right),y} \right) = - y\log \left( {{h_\theta }\left( x \right)} \right) - \left( {1 - y} \right)\log \left( {1 - {h_\theta }\left( x \right)} \right)$
$\to J\left( \theta \right) = - \frac{1}{m}\left[ {\sum\limits_{i = 1}^m {{y^{\left( i \right)}}\log \left( {{h_\theta }\left( {{x^{\left( i \right)}}} \right)} \right) + \left( {1 - {y^{\left( i \right)}}} \right)\log \left( {1 - {h_\theta }\left( {{x^{\left( i \right)}}} \right)} \right)} } \right]$

$Objection. \to \mathop {\min }\limits_\theta J\left( \theta \right)$

梯度下降法

R e p e a t {θ j = θ j - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j}

${\rm{Repeat}}\left\{ {{\theta _j} = {\theta _j} - \alpha \frac{1}{m}\sum\limits_{i = 1}^m {\left( {{h_\theta }\left( {{x^{\left( i \right)}}} \right) - {y^{\left( i \right)}}} \right)x_j^{\left( i \right)}} } \right\}$
这一迭代形式与“ 线性回归”中的梯度下降法相同，但是“

h(x(i)) $h(x^{(i)})$ ”是不同的。其中， 特征缩放（归一化）一样适用。

2.3 高级优化方法

用于求解 $\min ~~ J(θ)$ ，收敛速度更快。

优化算法

梯度下降法（Gradient descent）
共轭梯度法（Conjugate gradient）
变尺度法（BFGS）
线性变尺度法（L-BFGS）

其中 2，3，4 优化算法无需学习参数 $α$ ，且效率比梯度下降法更好。

3 多类别分类

方法：一对多算法（One-vs-all）
例子：
Email foldering/tagging: work $(y=1)$ , friends $(y=2)$ , family $(y=3)$ , hobby $(y=4)$

一对多

$\mathop {\max }\limits_i h_\theta ^{\left( i \right)}\left( x \right)$

当 $y = {1, 2, 3,…, n}$ ，令 $y = i$ 为 $1$ ，其他为 $0$ ，采用逻辑回归方法，做 $n$ 次分类。

4 解决过拟合问题

4.1 过拟合

$\begin{array}{ccccc} J\left( \theta \right) & \approx 0\ \to 0 \end{array}$

过拟合

解决方法

诊断，调试

减少特征数量（舍弃特征）
正则化（保留所有特征）

4.2 代价函数

${h_\theta }\left( x \right) = {\theta _0} + {\theta _1}{x^1} + {\theta _2}{x^2} + {\theta _3}{x^3} + {\theta _4}{x^4}$

希望 $θ_3$ , $θ_4$ 尽量小，则

min θ 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2 + 1000 θ 3 + 1000 θ 4                      惩 罚 项 (实 例)

$\mathop {\min }\limits_\theta \frac{1}{{2m}}\sum\limits_{i = 1}^m {{{\left( {{h_\theta }\left( {{x^{\left( i \right)}}} \right) - {y^{\left( i \right)}}} \right)}^2}} \underbrace { + 1000{\theta _3} + 1000{\theta _4}}_{惩罚项(实例)}$

正则化

对某些参数增加惩罚项，其中针对所有参数的为

$J\left( \theta \right) = \frac{1}{{2m}}\left[ {\sum\limits_{i = 1}^m {{{\left( {{h_\theta }\left( {{x^{\left( i \right)}}} \right) - {y^{\left( i \right)}}} \right)}^2}} + \lambda \sum\limits_{j = 1}^n {\theta _j^2} } \right]$

其中， $λ$ 为正则化参数， $λ$ 过大，会使得 $θ_j \to 0$ ，以至于欠拟合。

4.3 正则化的线性回归

$\mathop {\min }\limits_\theta J\left( \theta \right)$

梯度下降法

θ 0 = θ 0 - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) 0 θ j = θ j - α [1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j + λ m θ j] j = 1, 2, 3, \dots, n

$\begin{array}{ccccc} {\theta _0} = {\theta _0} - \alpha \frac{1}{m}\sum\limits_{i = 1}^m {\left( {{h_\theta }\left( {{x^{\left( i \right)}}} \right) - {y^{\left( i \right)}}} \right)x_0^{\left( i \right)}} \\ {\theta _j} = {\theta _j} - \alpha \left[ {\frac{1}{m}\sum\limits_{i = 1}^m {\left( {{h_\theta }\left( {{x^{\left( i \right)}}} \right) - {y^{\left( i \right)}}} \right)x_j^{\left( i \right)}} + \frac{\lambda }{m}{\theta _j}} \right]\\ j = 1,2,3, \cdots ,n \end{array}$

正规方程

θ = (X T X) - 1 X T y \to θ = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ X T X - λ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ 01 ⋱ 1 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ (n + 1) ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ - 1 X T y

$\theta = {\left( {{X^T}X} \right)^{ - 1}}{X^T}y \to \theta = {\left( {{X^T}X - \lambda {{\left[ {\begin{array}{*{20}{c}} 0&{}&{}&{}\\ {}&1&{}&{}\\ {}&{}& \ddots &{}\\ {}&{}&{}&1 \end{array}} \right]}_{\left( {n + 1} \right)}}} \right)^{ - 1}}{X^T}y$

当 $(X^TX)^{-1}$ 不可逆时，可将其转化为可逆矩阵。

4.4 正则化逻辑回归

$J\left( \theta \right) = \left[ { - \frac{1}{m}\sum\limits_{i = 1}^m {{y^{\left( i \right)}}\log \left( {{h_\theta }\left( {{x^{\left( i \right)}}} \right)} \right) + \left( {1 - {y^{\left( i \right)}}} \right)\log \left( {1 - {h_\theta }\left( {{x^{\left( i \right)}}} \right)} \right)} } \right] + \frac{\lambda }{{2m}}\sum\limits_{j = 1}^n {\theta _j^2}$