【机器学习实战】5.Logistic回归(1)

程序:

# -*- coding: utf-8 -*-
"""
Created on Wed Mar 14 14:15:43 2018

@author: ###
"""
import numpy as np
import matplotlib.pyplot as plt

def loadDataSet():
    dataMat=[]
    labelMat=[]
    fr=open('testSet.txt')          #打开文件
    for line in fr.readlines():     #逐行读取
        lineArr=line.strip().split()
        dataMat.append([1.0,float(lineArr[0]),float(lineArr[1])])
        labelMat.append(int(lineArr[2]))
    return dataMat,labelMat

def sigmoid(inX):
    return 1.0/(1+np.exp(-inX))

def gradAscent(dataMatIn,classLabels):
    '''
    梯度上升法
    伪代码:
    所有回归系数初始化为1
    重复maxCycles次:
        计算每个数据集的梯度
        使用alpha*gradient更新回归系数的向量
    返回回归系数
    '''
    dataMatrix=np.mat(dataMatIn)
    labelMat=np.mat(classLabels).transpose()
    m,n=np.shape(dataMatrix)
    alpha=0.001
    maxCycles=500
    weights=np.ones((n,1))
    for k in range(maxCycles):
        h=sigmoid(dataMatrix * weights)
        error=(labelMat-h)
        weights=weights+alpha*dataMatrix.transpose()*error
    return weights

def plotBestFit(weights):
    '''
    画出决策边界
        将不同类的点分开,先后用不同形状标记花在同一张图上
        利用得到的回归系数计算决策边界
        这里 w0*x0+w1*x1+w2*x2=0 -> x2=(-w0-w1*x1)/w2 ,x0=1
    '''
    dataMat,labelMat=loadDataSet()
    dataArr=np.array(dataMat)  #将矩阵转化为数组
    n=np.shape(dataArr)[0]     #找到数据个数
    xcord1=[];ycord1=[]
    xcord2=[];ycord2=[]
    for i in range(n):
        if int (labelMat[i])==1:  #记录标记为1的数据
            xcord1.append(dataArr[i,1])
            ycord1.append(dataArr[i,2])
        else:
            xcord2.append(dataArr[i,1])
            ycord2.append(dataArr[i,2])
    fig=plt.figure()
    ax=fig.add_subplot(111) #添加子图,分贝表示子图行数、列数和位置
    #散点图 s表示大小,c表示颜色,marker表示标记类型,还有label表示标签
    ax.scatter(xcord1,ycord1,s=30,c='red',marker='s',label='red')
    ax.scatter(xcord2,ycord2,s=30,c='green',label='green')
    plt.legend(loc='upper right')  #表明label的位置,若无这条语言,则无法显示label
    x=np.arange(-3.0,3.0,0.1)
    y=(-weights[0]-weights[1]*x)/weights[2]
    ax.plot(x,y)
    plt.xlabel('X1')
    plt.ylabel('X2')
    plt.show()


def stocGradAscent0(dataMatrix,classLabels):
    '''
    随机梯度上升法
    伪代码:
    所有回归系数初始化为1
    对数据集中的每一个样本:
        计算该样本的梯度
        使用alpha*graident更新回归系数值
    返回回归系数值
    '''
    m,n=np.shape(dataMatrix)
    alpha=0.01
    weights=np.ones(n)   
    for i in range(m):
        h=sigmoid(sum(dataMatrix[i]*weights))
        error=classLabels[i]-h
        weights=weights+alpha*error*dataMatrix[i]
    return weights
    
def stocGradAscent1(dataMatrix,classLabels,numIter=150):
    '''
    改进的随机梯度上升法
    改进一:
        alpha值不是固定不变的,随着迭代次数和目前样本个数的增大而减小
        同时迭代次数j<<m时,alpha不是单调下降,而是周期性地下降
    改进二:
        随机抽取样本,减少周期性波动
    '''
    m,n=np.shape(dataMatrix)
    weights=np.ones(n)
    for j in range(numIter):
        #这里与书上不同 range(m)返回的是range对象,无法进行删除,用list函数进行转换
        dataIndex= list(range(m))   
        for i in range(m):
            alpha=4/(1.0+j+i)+0.01
            randIndex=int(np.random.uniform(0,len(dataIndex)))
            h=sigmoid(sum(dataMatrix[randIndex]*weights))
            error=classLabels[randIndex]-h
            weights=weights+alpha*error*dataMatrix[randIndex]
            del(dataIndex[randIndex])
    return weights


if __name__=='__main__':
    
    '''
    梯度上升法  
    '''
    dataArr,labelMat=loadDataSet()
    weights=gradAscent(dataArr,labelMat)
    print(weights)
    plotBestFit(weights.getA())   #将矩阵转化为数组 matrix->ndarray(多维数组,同构) 
    
    '''
    随机梯度下降法
    这里数据集dataArr类型是list,需先转为ndarray:
        因为*在list中是构建重复元素,而不是列表中所有数据乘以某个值
        同时也要注意在list用了*号后,实现上是复制了值的引用,
        一旦更改其中一个,重复的所有值都会随之改变,所以需要慎用
    '''
    
    weights=stocGradAscent0(np.array(dataArr),labelMat)
    plotBestFit(weights)
    
    '''
    改进梯度下降法
    '''
    weights=stocGradAscent1(np.array(dataArr),labelMat)
    plotBestFit(weights)

运行结果:

梯度上升法:


随机梯度下降法:


改进随机梯度下降法:


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值