《机器学习实战》--Logistic回归

最新推荐文章于 2022-09-14 11:32:50 发布

KangRoger

最新推荐文章于 2022-09-14 11:32:50 发布

阅读量1.3k

点赞数

分类专栏：机器学习文章标签：机器学习 Logistic 梯度下降逻辑回归

本文链接：https://blog.csdn.net/KangRoger/article/details/51494470

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Sigmoid函数
梯度下降法
随机梯度下降
批梯度下降
参考

逻辑回归中的输入和输出是非线性关系，这样可以把输出限定在某一范围内。一个常用的逻辑回归函数为Sigmoid函数

Sigmoid函数

Sigmoid函数表达式为

h θ (x) = g (θ T x) = 1 1 + e - θ x

$h_\theta(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta x}}$

其形状如下：
逻辑回归.jpg
可以看出，对于给定的任何输入，其输出范围为(0, 1)。Sigmoid可以用于分类。给出一个阈值 $\eta$ ，当输出大于 $\eta$ 时，归类为1；当输出小于 $\eta$ 时，归类为0。

梯度下降法

在求解优化问题时，常常难求闭式解。这时可以采用梯度下降法逼近最优解。在一个多参数（x_1,x_2,…,x_n)优化问题中，对某一参数x求梯度，梯度方向就是x增长最快的方向，梯度反方向就是x下降最快的方向。假设求解最小值（如果是凸优化），一直沿着梯度反方向，则可以找到其最优点；即使是非凸优化问题，梯度下降也有着很好的表现。

z = w 0 x 0 + w 1 x 1 + . . . + w n x n

$z=w_0x_0+w_1x_1+...+w_nx_n$
写成向量为

z = W T X

$z=\textbf{W}^T\textbf{X}$

如果目标函数为 $f(\textbf{x})$ ，那么梯度下降法更新函数为

$w_n=w_n+\alpha\bigtriangledown_{w_n}f(\textbf{W})$

上面这个公式可以一直迭代，直到达到某个终止条件。其中 $\alpha$ 为步长。
下面看一段《机器学习实战》中梯度更新的Python代码

def gradAscent(dataMatIn, classLabels):
    dataMatrix = mat(dataMatIn)             #convert to NumPy matrix
    labelMat = mat(classLabels).transpose() #convert to NumPy matrix
    m,n = shape(dataMatrix)
    alpha = 0.001
    maxCycles = 500
    weights = ones((n,1))
    for k in range(maxCycles):              #heavy on matrix operations
        h = sigmoid(dataMatrix*weights)     #matrix mult
        error = (labelMat - h)              #vector subtraction
        weights = weights + alpha * dataMatrix.transpose()* error #matrix mult
    return weights

输入dataMatIn表示权重矩阵，每一行都是一组权重系数；classLabels表示目标值，是个列向量。上面函数先把输入转换为NumPy数据。maxCycles表示迭代500次终止，alpha表示步长,weights初始化为n行1列的向量，值为1。

在for循环中，首先计算函数f(这里为sigmoid函数）的输出h，计算期望值(labelMat)和输出值h的误差error；这里dataMatrix.transpose()相当于梯度了。上面的代码看似简单，其实乘法使用了矩阵相乘。

随机梯度下降

梯度下降法，在每一步更新梯度时都要遍历所有数据集。如果数据集中数据量大，那么计算复杂度会太高。这时可以考虑随机梯度下降。随机梯度下降，在每次更新权重时，只使用一个样本，遍历所有样本来更新数据。
在数学上可以这样理解：梯度下降法中，使用所有数据量的梯度是函数f下降最快的方向；随机梯度下降法中，虽然梯度的方向不是函数下降最快的，但是也是下降的方向。

可以给出Python代码比较

def stocGradAscent0(dataMatrix, classLabels):
    m,n = shape(dataMatrix)
    alpha = 0.01
    weights = ones(n)   #initialize to all ones
    for i in range(m):
        h = sigmoid(sum(dataMatrix[i]*weights))
        error = classLabels[i] - h
        weights = weights + alpha * error * dataMatrix[i]
    return weights

这个函数的输入和前面相同，但是这里面没有矩阵相乘了，每次使用一个数据（即一行数据）。