Coursera-Machine Learning 之 Logistic Regression (逻辑回归)-0x02

最新推荐文章于 2025-11-12 23:37:03 发布

原创最新推荐文章于 2025-11-12 23:37:03 发布 · 482 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#logistic #逻辑回归

Machine Learning 专栏收录该内容

4 篇文章

订阅专栏

本文深入探讨了机器学习的基础概念，包括成本函数、拟合参数选择、代价函数及优化算法，同时详细介绍了线性回归与逻辑回归的数学原理与应用。进一步，文章阐述了多分类问题的解决方法——一对一分类法，并通过实例展示了如何实现预测输出值的最小化。此外，还对比了梯度下降、共轭梯度法、BFGS、L-BFGS等高级优化算法的优点与局限性，以及如何通过调整参数来提升模型性能。

Cost Function

Training set(训练集):
$\{(x^{(1)}, (y^{(1)}), (x^{(2)}, (y^{(2)}), ... ,(x^{(m)}, (y^{(m)})\}$

m 个训练样本

x \in ⎡ ⎣ ⎢ ⎢ ⎢ x 0 x 1 . . . x n ⎤ ⎦ ⎥ ⎥ ⎥ x 0 = 1, y \in {0, 1}

$x \in \begin{bmatrix} x_0\\ x_1\\ ...\\ x_n\\ \end{bmatrix} \space x_0 = 1, y \in \{0,1\}$

hθ(x)=11+e−θTx $h_\theta(x) = \frac{1}{1+e^{-\theta^Tx}}$

如何选择拟合参数 $\theta$ ?

代价函数

线性回归：
$J(\theta) = \frac{1}{m}\sum\limits_{i = 1}^{m}\frac{1}{2}(h_\theta(x^{(i)}) - y^{(i)})^2$

$Cost(h_\theta(x^{(i)}) , y^{(i)}) = \frac{1}{2}(h_\theta(x^{(i)}) - y^{(i)})^2$

Logistic 回归：

C o s t (h θ (x (i)), y (i)) = {- l o g (h θ (x)) - l o g (1 - h θ (x)) if y = 1 if y = 0

$Cost(h_\theta(x^{(i)}) , y^{(i)}) = \begin{cases} -log(h_\theta(x)) & \text{if}\space y = 1\\ -log(1 - h_\theta(x)) & \text{if}\space y = 0 \end{cases}$
Note:

y=0 or 1 always $y = 0 \ \text{or}\ 1\ \text{always}$

结合函数图像比较好理解。

Simplified cost function and gradient descent

$Cost(h_\theta(x) , y) = -y log(h_\theta(x)) - (1 - y)log(1 - h_\theta(x))$

$J(\theta) = \frac{1}{m}\sum\limits_{i = 1}^{m}Cost(h_\theta(x^{(i)}), y^{(i)}) = -\frac{1}{m}[\sum\limits_{i = 1}^{m} y^{(i)}log\space h_\theta(x^{(i)}) + (1 - y^{(i)})log(1 - h_\theta(x^{(i)})]$

拟合参数 $\theta$ :

$\min\limits_{\theta}J(\theta)$

针对一个新的 $x$ 预测输出值：

Output $h_\theta(x) = \frac{1}{1+e^{-\theta^T x}}$

want $\min\limits_{\theta}J(\theta)$ :

Repeat {
$\theta_j := \theta_j -\alpha\frac{\partial}{\partial\theta_j}J(\theta)$
}

$\frac{\partial}{\partial\theta_j}J(\theta) = \frac{1}{m}\sum\limits_{i = 1}^{m}(h_\theta(x^{(i)}), y^{(i)})x_j^{(i)}$

Advanced Optimization(高级优化)

Optimization algorithm

Gradient descent（梯度下降）
Conjugate gradient（共轭梯度法）
BFGS（变尺度法）
L-BFGS（限制变尺度法）

后三种算法优点：
不需要手动选择学习率
一般情况下比梯度下来收敛得更快
缺点：更加复杂

Example:
$\theta = \begin{bmatrix} \theta_0\\ \theta_1\\ \end{bmatrix}$

$J(\theta) = (\theta_1 - 5)^2 + (\theta_2 - 5)^2$

$\frac{\partial}{\partial\theta_1}J(\theta) = 2(\theta_1 - 5)$

$\frac{\partial}{\partial\theta_2}J(\theta) = 2(\theta_2 - 5)$

function [jVal, gradient] = costFunction(theta)
    jVal = (theta(1) - 5)^2 + (theta(2) - 5)^2;
    gradient = zeros(2, 1);
    gradient(1) = 2*(theta(1) - 5);
    gradient(2) = 2*(theta(2) - 5);

options = optimset('GradObj', 'on', 'MaxIter', '100');
initialTeta = zeros(2,1);
[optTheta, functionVal, exitFlag] 
    = fminunc(@costFunction, initialTheta, options);