[实战] 逻辑回归分类算法

最新推荐文章于 2020-04-07 17:26:23 发布

STILLxjy

最新推荐文章于 2020-04-07 17:26:23 发布

阅读量404

点赞数 1

分类专栏： ——机器学习—— 机器学习实战

本文链接：https://blog.csdn.net/STILLxjy/article/details/90261881

版权

——机器学习—— 同时被 2 个专栏收录

30 篇文章 3 订阅

订阅专栏

机器学习实战

6 篇文章 0 订阅

订阅专栏

逻辑回归算法是将数据样本分为两类0：1
假设输入样本为向量x，我们希望求解出最佳的参数向量w
使得 sigmoid(w’x) 可以很好的将数据划分，其中sigmoid函数如下所示，w’表示w的转置
在这里插入图片描述

实现方法：
随机初始化待求解参数w
使用梯度上升（或梯度下降）算法，迭代求解局部最优值：
在这里插入图片描述

代码实现：
（1）加载数据：

from numpy import *

def loadDataSet():
    dataMat = []; labelMat = []
    fr = open('data/testSet.txt')
    for line in fr.readlines():
        lineArr = line.strip().split()
        dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])
        labelMat.append(int(lineArr[2]))
    return dataMat, labelMat

（2）sigmoid函数

def sigmoid(z):
    return 1.0/(1+exp(-z))

（3）梯度上升法

def gradAscent(dataMatIn, classLabels):
    dataMatrix = mat(dataMatIn)
    labelMat = mat(classLabels).transpose()
    m,n = shape(dataMatrix)
    alpha = 0.001
    weights = ones((n,1))
    maxCycles = 500
    for k in range(maxCycles):
        h = sigmoid(dataMatrix*weights)
        error = (labelMat - h)
        weights = weights + alpha * dataMatrix.transpose() * error
    return weights

优化： 采用随机梯度上升法
1：按顺序每次使用一个样本

def stocGradAscent0(dataMatrix, classLabels):
    m,n = shape(dataMatrix)
    alpha = 0.01
    weights = ones(n)
    for i in range(m):
        h = sigmoid(sum(dataMatrix[i]*weights))
        error = classLabels[i] - h
        weights = weights + alpha*error*dataMatrix[i]
    return weights

2：每次随机抽取一个样本，并使用变化的步长

def stocGradAscent1(dataMatrix, classLabels, numIter=150):
    m,n = shape(dataMatrix)
    weights = ones(n)
    for j in range(numIter):
        dataIndex = [i for i in range(m)]
        for i in range(m):
            alpha = 4/(1.0+j+i) + 0.01
            randIndex = int(random.uniform(0,len(dataIndex)))
            h = sigmoid(sum(dataMatrix[randIndex] * weights))
            error = classLabels[randIndex] - h
            weights = weights + alpha*error*dataMatrix[randIndex]
            del(dataIndex[randIndex])
    return weights

将数据点和结果画出来：

def plotBestFit(w):
    import matplotlib.pyplot as plt
    weights = mat(w).getA()
    dataMat, labelMat = loadDataSet()
    dataArr = array(dataMat)
    n = shape(dataArr)[0]
    xcord1 = []; ycord1 = []
    xcord2 = []; ycord2 = []
    for i in range(n):
        if int(labelMat[i]) == 1:
            xcord1.append(dataArr[i,1])
            ycord1.append(dataArr[i,2])
        else:
            xcord2.append(dataArr[i,1])
            ycord2.append(dataArr[i,2])
    fig = plt.figure()
    ax = fig.add_subplot(111)
    ax.scatter(xcord1, ycord1, s=30, c='red', marker='s')
    ax.scatter(xcord2, ycord2, s=30, c='green')
    x = arange(-3.0, 3.0, 0.1)
    y = (-weights[0]-weights[1]*x)/weights[2]
    ax.plot(x,y)
    plt.xlabel('X1')
    plt.xlabel('X2')
    plt.show()

结果显示：
在这里插入图片描述