Logistic回归推导（三）--牛顿法及纯python实现

最新推荐文章于 2022-07-18 15:53:32 发布

气泡水、

最新推荐文章于 2022-07-18 15:53:32 发布

阅读量3.2k

点赞数 6

分类专栏：机器学习文章标签： python 逻辑回归

本文链接：https://blog.csdn.net/m0_50117360/article/details/109123656

版权

机器学习专栏收录该内容

7 篇文章 3 订阅

订阅专栏

本文介绍了牛顿法的概念及其在解决单特征和多特征问题时的迭代过程，详细阐述了牛顿法如何应用于Logistic回归的优化，通过实例展示了在Python中实现牛顿法的过程，并给出了训练过程中损失(loss)的变化情况。

摘要由CSDN通过智能技术生成

1、牛顿法图解

牛顿法一般用来求解方程的根或求解极值，其基本思想是：在现有极值点估计值附近对f(x)做二阶泰勒展开，从而找到极值点的下一个估计值。
下面用一个例图说明：
在这里插入图片描述
如图横坐标为参数 $\theta$ ，纵坐标为函数一阶导数 $f^{'}(\theta)$ ，则牛顿法迭代过程如下：
(1)过点 $(\theta_{0},f^{'}(\theta_{0}))$ 作切线，切线方程为 $y=f^{'}(\theta_{0})+f^{''}(\theta_{0})(\theta-\theta_{0})$ ;
(2)切线交横轴于 $\theta_{1}=\theta_{0}-\frac{f^{'}(\theta_{0})}{f^{''}(\theta_{0})}$ 处;
(3)过点 $(\theta_{1},f^{'}(\theta_{1}))$ 作切线，切线方程为 $y=f^{'}(\theta_{1})+f^{''}(\theta_{1})(\theta-\theta_{1})$ ;
(4)切线交横轴于 $\theta_{2}=\theta_{1}-\frac{f^{'}(\theta_{1})}{f^{''}(\theta_{1})}$ 处;
(5)重复迭代得到 $\theta^{*}$ 。

2、牛顿法原理

(1)当样本只有一个特征

假设 $f (x)$ 二次可微，设 $x=x_{min}$ 时，函数f(x)取得最小值，我们的目标就是希望能求得 $x_{min}$ 。
首先用 $x_{k}$ 作为 $x_{min}$ 的估计值，在 $x=x_{k}$ 处进行二阶泰勒展开：
$f(x)\approx f(x_{k})+f^{'}(x_{k})(x-x_{k})+\frac{1}{2}f^{''}(x_{k})(x-x_{k})^{2}$
求 $f (x)$ 的极值即求导数为0处的 $x$ ，对 $f (x)$ 求导：
$\begin{aligned} f^{'}(x)&=0+f^{'}(x_{k})(1-0)+\frac{1}{2}f^{''}(x_{k})2(x-x_{k})\\ &=f^{'}(x_{k})+f^{''}(x_{k})(x-x_{k}) \end{aligned}$
令其为0得到下一个估计值 $x=x_{k}-\frac{f^{'}(x_{k})}{f^{''}(x_{k})}$
故迭代公式为：
$x_{k+1}=x_{k}-\frac{f^{'}(x_{k})}{f^{''}(x_{k})}$

(1)当样本有多个特征

二阶泰勒展开式的推广为：
$\varphi(X) \approx f(X_{k})+\bigtriangledown f(X_{k}) \cdot (X-X_{k})+\frac{1}{2}(X-X_{k})^{T}\cdot \bigtriangledown^{2}f(X_{k})\cdot(X-X_{k})$
其中 $\bigtriangledown f$ 为 $f$ 的梯度向量
$\bigtriangledown f=[\frac{\partial f}{\partial x_{1}}\quad \frac{\partial f}{\partial x_{2}}\quad ... \quad \frac{\partial f}{\partial x_{N}}]^{T}$
$\bigtriangledown^{2}f$ 为 $f$ 的海森矩阵。
由 $\bigtriangledown \varphi(X)=0$ ，即
$\bigtriangledown f(X_{k})+\bigtriangledown^{2}f(X_{k})\cdot(X-X_{k})=0$
得下一个极值的估计值为
$X=X_{k}-\bigtriangledown^{2}f(X_{k})^{-1}\bigtriangledown f(X_{k})$
令 $\bigtriangledown f=g_{k}，\bigtriangledown^{2}f=H_{k}$ ，则迭代公式为
$X_{k+1}=X_{k}-H_{k}^{-1}g_{k}$

3、牛顿法求解Logistic回归

Logistic回归假设函数为：
$\begin{aligned} P(y|x;\theta)&=[h_{\theta}(x)]^{y}[1-h_{\theta}(x)]^{(1-y)}\\ &=(\frac{1}{1+e^{-\theta^{T}x}})^{y}(1-\frac{1}{1+e^{-\theta^{T}x}})^{1-y} \end{aligned}$
其目标函数为：
$\text{arg } \underset{\theta}{max}\frac{1}{N}\sum_{i=1}^{N}[y^{(i)}lnh_{\theta}(x^{(i)})+(1-y^{(i)})ln(1-h_{\theta}(x^{(i)}))]$
则
$\bigtriangledown J(\theta)=\frac{1}{N}\sum_{i=1}^{N}[h_{\theta}(x^{(i)})-y^{(i)}]x^{(i)}$
$\begin{aligned} H=\bigtriangledown^{2}J(\theta)&=\bigtriangledown\frac{1}{N}\sum_{i=1}^{N}[h_{\theta}(x^{(i)})-y^{(i)}]x^{(i)}\\ &=\bigtriangledown\frac{1}{N}\sum_{i=1}^{N}h_{\theta}(x^{(i)})\cdot x^{(i)}\\ &=\frac{1}{N}\sum_{i=1}^{N}\frac{\partial h_{\theta}(x^{(i)})}{\partial \theta} \cdot (x^{(i)})^{T}\\ &=\frac{1}{N}\sum_{i=1}^{N}h_{\theta}(x^{(i)})^{T} \cdot (1-h_{\theta}(x^{(i)})) \cdot x^{(i)} \cdot (x^{(i)})^{T} \end{aligned}$
使用牛顿法更新权重：
$\theta^{(t+1)}:=\theta^{(t)}-H^{-1}\bigtriangledown J(\theta)$

4、纯python实现

代码如下：

import numpy as np
import matplotlib.pyplot as plt
import time


# 加载数据
def load_data():
    X_train = np.loadtxt("./Exam/train/x.txt")
    Y_train = np.loadtxt("./Exam/train/y.txt", dtype=int)
    X_test = np.loadtxt("./Exam/test/x.txt")
    Y_test = np.loadtxt("./Exam/test/y.txt", dtype=int)
    return X_train, Y_train, X_test, Y_test


# Logistic回归类
class Logistic(object):
    def __init__(self, X_train, Y_train):
        self.X_train = X_train
        self.Y_train = Y_train
        # M:特征数，N：样本数
        self.M = X_train.shape[1]
        self.N = X_train.shape[0]
        self.train()

    def normalization(self):
        # 均值方差归一化
        mean = np.mean(self.X_train)
        variance = np.std(self.X_train)
        self.X_train = (self.X_train - mean)/variance
        self.X_train = np.insert(self.X_train, 0, values=1.0, axis=1)
        self.Y_train = self.Y_train.reshape(self.N, 1)
        self.M += 1
        
    def sigmoid(self, X):
        eta = -np.dot(X, self.theta)  # N*1
        H = np.exp(eta)
        H = 1.0 / (1.0 + H)
        return H

    def Newton_method(self):
        self.theta = -np.ones((self.M, 1))
        for i in range(100):
            self.H = self.sigmoid(self.X_train)
            self.J = np.dot(self.X_train.T, (self.H - self.Y_train))  #M*1
            self.Hession = np.dot(self.H.T, self.X_train).dot(self.X_train.T).dot((1.0 - self.H)) / self.N
            self.theta -= np.dot(self.J, np.linalg.inv(self.Hession))
            self.loss = -np.sum(self.Y_train * np.log(self.H) + (1.0 - self.Y_train)* np.log(1 - self.H))/self.N
            print("iter: %d, loss: %f" % (i, self.loss))
        print(self.theta)

    def train(self):
        self.normalization()
        self.Newton_method()


if __name__ == "__main__":
    X_train, Y_train, X_test, Y_test = load_data()
    Logistic(X_train, Y_train)