Logistic Regression

最新推荐文章于 2024-09-12 21:03:40 发布

Aoxuets

最新推荐文章于 2024-09-12 21:03:40 发布

阅读量485

点赞数

分类专栏：综合文章标签：逻辑回归机器学习

本文链接：https://blog.csdn.net/Aoxuets/article/details/74011481

版权

综合专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Logistic Regression

Classification

Classification : y = 0 or 1;

Linear Regression : $h_\theta(X) > 1$ or $h_\theta(X) < 0$

Logistic Regression : $0 \leq h_\theta(X) \leq 1$

使用线性回归算法将不能很好的预测值。

LinearRegression&&LogisticsRegression

Hypothesis Representation

Logistics Regression Model

Want $0 \leq h_\theta(X) \leq 1$

Logisitics Function or Sigmoid Function G

h θ (X) G (Z) h θ (X) = G (θ T X) = 1 1 + e - Z = 1 e - θ T X

$\begin{aligned} h_\theta(X) &= G(\theta^TX)\\ G(Z) &= \frac{1}{1 + e^{-Z}} \\ h_\theta(X) &= \frac{1}{e^{-\theta^TX}} \end{aligned}$
Sigmoid Fucntion：

sigmoid

Interpretation of Hypothesis Output

$h_\theta(x)$ = 给定一个特征 $\vec{x}$ ，输出 $y = 1$ 的概率。

（estimated probability that $y=1$ on input $\vec{x}$ ）

P (y = 1 | x ⃗, θ) + P (y = 0 | x ⃗, θ) = 1 P (y = 1 | x ⃗, θ) = 1 - P (y = 0 | x ⃗, θ)

$\begin{aligned} P(y = 1| \vec{x}, \theta) + P(y = 0| \vec{x}, \theta) = 1\\ P(y = 1| \vec{x}, \theta) = 1 - P(y = 0| \vec{x}, \theta) \end{aligned}$

Decision boundary

h θ (x) = g (θ T x) = P (y = 1 | x, θ) g (z) = 1 1 + e - z

$\begin{aligned} h_\theta(x) = g(\theta^Tx) = P(y = 1 | x,\theta)\\ g(z) = \frac{1}{1 + e^{-z}} \end{aligned}$

即 $h_\theta(x)$ 输出的值是在给定 $x$ 和 $\theta$ 的情况下 $y = 1$ 的概率。一般假定与 sigmoid 函数与 $x = 0$ 的交点处的值，即 $h_\theta(x) = 0.5$

$h_\theta(x)$ 设定不同的形式，可以画出多样的函数图形。

Non-linearDecisionBoundaries

Cost Function

逻辑回归不能使用标准方差方程，因为在逻辑回归中 $h_\theta(x)$ 函数是非线性的，使用标准方差方程会导致CostFunction 是一个非凸函数，将会有多个局部最优解，将不能使用梯度下降算法求出 $\theta$ 使得CostFunction 最小。

逻辑回归的CostFunction定义如下：

C o s t (h θ (x), y) = {- log (h θ (x)) - log (1 - h θ (x)) if y = 1 if y = 0

$\begin{aligned} Cost(h_\theta(x), y) = \begin{cases} & -\log(h_\theta(x)) &\text{if y = 1} \\ & -\log(1-h_\theta(x)) &\text{if y = 0} \end{cases} \end{aligned}$
LogisticsCostFunction

这样定义代价函数，使得在 $y=1$ 时， $h_\theta(x) ->0$ 时，与结果不相符合，代价趋于无穷大。

$y = 0$ 事， $h_\theta(x)->1$ 时，与结果不相符合，代价趋于无穷大。

而两者与结果相符合时，代价非常小，趋于 0。（相等则为0）

Gradient Descent

我们先把 $Cost(h_\theta(x) , y)$ 写成统一形式，方便于梯度下降算法的推导。

C o s t (h θ (x), y) = - (y \times log (h θ (x)) + (1 - y) \times log (1 - h θ (x))

$\begin{aligned} Cost(h_\theta(x),y) =-( y\times\log(h_\theta(x)) + (1-y)\times\log(1-h_\theta(x)) \end{aligned}$
这时候可以求出总的的代价函数

J(θ) $J(\theta)$ :

J (θ) \partial \partial θ j J (θ) = - 1 m \sum i = 1 m C o s t (h θ (x), y) = - 1 m \sum i = 1 m (y \times log (h θ (x)) + (1 - y) \times log (1 - h θ (x))) 则 可 以 得 出 梯 度 了 = 1 m \sum i = 1 m (h θ (x (i)) - y (i)) \times x j

$\begin{aligned} J(\theta) &= -\frac{1}{m} \sum_{i=1}^{m} Cost(h_\theta(x) ,y)\\ &= -\frac{1}{m} \sum_{i=1}^{m} (y\times\log(h_\theta(x)) + (1-y)\times\log(1-h_\theta(x)))\\ &\text{则可以得出梯度了}\\ \frac{\partial}{\partial\theta_j}J(\theta) &= \frac{1}{m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)})\times x_j \end{aligned}$
这个时候

Logistics Regression $Logistics \text{ }Regression$ 的梯度下降算法可以得出了：

r e p e a t u n t i l c o n v e r g e n c e ： θ j : = θ j - α \partial \partial θ j 1 m \sum i = 1 m (h θ (x (i)) - y (i)) \times x j} {

$\begin{aligned} &repeat \text{ }until \text{ }convergence： &\{\\ &\theta_j := \theta_j - \alpha\frac{\partial}{\partial \theta_j} \frac{1}{m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)})\times x_j\\ &\} \end{aligned}$
可以发现，和之前的线性回归是一样的。区别就是

hθ(x) $h_\theta(x)$ 的区别了

Advanced optimization

Optimization algorithm：

    -Gradient Descent

-Conjugate Gradient

-BFGS

-L-BFGS

后面三个算法有待学习。。。。

Octave Options

首先写出函数 $J(\theta)$ 以及 $\frac{\partial}{\partial\theta_j}J(\theta)$

function [ jVal,gradient ] = advancedOptimizationTest( theta )
%ADVANCEDOPTIMIZATIONTEST 此处显示有关此函数的摘要
%   此处显示详细说明
%   J_theta 
    jVal = (theta(1) - 5)^2 +(theta(2)-5)^2;
    gradient = zeros(2,1);
    gradient(1) = 2 * (theta(1)-5);
    gradient(2) = 2 * (theta(2)-5);
end

然后就可以使用 $fminunc()$ 函数得出 $\theta$ 和函数结果 $functionVal$ 、 $exitFlag$ 是否收敛。

options = optimset('GradObj','on','MaxIter','100');
initialTheta = zeros(2,1);
[optTheta, functionVal, exitFlag] = fminunc(@advancedOptimizationTest, initialTheta, options);

如果有多个 $feartures$ ，在代价函数中都要写出来。

Multi-class classification：One-vs-all

MulticlassClassification

简而言之，当有多种离散的值要进行处理时，单独提出他们单独处理。结果即为 $y = i$ 的概率了。

Aoxuets

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Logistic Regression

Logistic RegressionClassification Classification : y = 0 or 1; Linear Regression : hθ(X)>1h_\theta(X) > 1 or hθ(X)<0h_\theta(X) < 0 Logistic Regression : 0≤hθ(X)≤10 \leq h_\theta(X
复制链接

扫一扫

专栏目录