py2.7 : 《机器学习实战》 Logistic回归 1.22号 5.3 分析数据:随机梯度上升

5.2.2 训练算法:使用梯度上升找到最佳参数

PS:加法变成减法就是梯度下降

输入代码:

# -*- coding: utf-8 -*-
from numpy import *
def loadDataSet():
    dataMat = [] ; labelMat = []
    fr = open('testSet.txt')
    for line in fr.readlines():
        lineArr = line.strip().split() #划分数据
        dataMat.append([1.0,float(lineArr[0]),float(lineArr[1])])
        labelMat.append(int(lineArr[2]))
    return dataMat,labelMat

def sigmoid(inX):
    return 1.0/(1+exp(-inX)) #返回sigmod的值

def gradAscent(dataMatIn, classLabels):
    dataMatrix = mat(dataMatIn) #转换数据类型为numpy的矩阵数据类型
    labelMat = mat(classLabels).transpose() #同理 并且为了下一步要转置
    m,n = shape(dataMatrix) #获取行列
    alpha = 0.001
    maxCycles = 500 #迭代次数
    weights = ones((n,1)) #这里先把回归系数初始化为1
    for k in range(maxCycles):
        h = sigmoid(dataMatrix*weights) # 预测函数 : h = g(Z) = 分类器输入数据 * 回归系数
        error = (labelMat - h) #这里是梯度上升的写法,每一步的迭代计算而不是列综合式
        weights = weights  + alpha*dataMatrix.transpose()*error
    return weights #返回最优系数


输出代码:
import logRegres
dataArr,labelmat = logRegres.loadDataSet()
print(logRegres.gradAscent(dataArr,labelmat))


输出效果:

[[ 4.12414349]
 [ 0.48007329]
 [-0.6168482 ]]

5.2.3:分析数据:画出决策边界 (该有的matplotlib注释都已经标好了)

程序代码:

def plotBestFit(weights):#接受最优系数画出决策边界
    import matplotlib.pyplot as plt
    dataMat , labelMat = loadDataSet()
    dataArr = array(dataMat)
    n = shape(dataArr)[0] #提取行数
    xcord1 = [] ; ycord1 = [] #储存第一列坐标信息
    xcord2 = [] ; ycord2 = [] #储存第二列坐标信息
    for i in range(n):
        if int(labelMat[i]==1) : #如果特征为1
            xcord1.append(dataArr[i,1]) ; ycord1.append(dataArr[i,2]) #把第i行两个特征存起来
        else:
            xcord2.append(dataArr[i,1]) ; ycord2.append(dataArr[i,2]) #同理
    fig = plt.figure() #创建图
    ax = fig.add_subplot(111) #add_subplot(x,y,z) 代表把一块图分为x行y列从左到右从上到下第z块
    ax.scatter(xcord1,ycord1, s= 30 , c = 'red' , marker = 's') #形状
    ax.scatter(xcord2,ycord2, s= 30 , c = 'green')
    x = arange(-3.0,3.0,0.1) #代表从线从-3到+3,单位为0.1
    y = (-weights[0]-weights[1]*x)/weights[2] #这里设定 0 = w0*x0+w1*x1+w2*x2,即sigmod = 0 ,x0=1,解出分割线方程
    ax.plot(x,y) #线段为x,斜率为y
    plt.xlabel('X1'); plt.ylabel('X2')
    plt.show()

执行代码:

from numpy import *
import logRegres
dataArr , labelMat = logRegres.loadDataSet()
weights = logRegres.gradAscent(dataArr,labelMat)
logRegres.plotBestFit(weights.getA())
效果:



5.2.3 随机梯度上升

def gradAscent0(dataMatrix,classLabels):#随机梯度上升
    m,n = shape(dataMatrix)#求出行,列
    alpha = 0.01 #步长为0.01
    weights = ones(n) #最优化系数初始化为1,后面的根据样本数据调整
    for i in range(m):
        h = sigmoid(sum(dataMatrix[i]*weights))
        #当前样本的预测值,一次只有一个样本更新
        #dataMartrix[i]*weights也为当前样本行乘以weights
        error = classLabels[i] - h #此处误差为一个值,而不是向量
        weights = weights + alpha*error*dataMatrix[i] #只对当前样本的最优系数更新
    return weights
#随机梯度上升是建立在‘在线算法’上的‘批处理’算法,一次仅用一个样本点,

执行:

from numpy import *
import logRegres
dataArr , labelMat = logRegres.loadDataSet()
weights = logRegres.gradAscent0(array(dataArr),labelMat)
logRegres.plotBestFit(weights)


效果图:

一个判断优化算法的优劣的可靠方法是看他是否收敛,也就说参数是否达到稳定值

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Kelisita

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值