利用Logistic回归进行分类的核心思想:根据现有数据堆分类边界线简历回归公司,以此进行分类。
sigmoid函数,阶跃函数,返回值为0~1
基于sigmoid函数的Logistic回归分类器实现:在每个特征上都乘以一个回归系数,然后把所有的结果相加,将总和带入sigmoid函数,得到一个范围在0~1之间的数值。任何大于0.5的数据被分入1类,小于0.5的被归入0类。
使用最优化算法来计算回归系数,w即为回归系数。
判断一个算法的优劣的可靠方法:看它是否收敛,即参数是否达到了稳定值。
import math
import numpy as np
def loadDataset(fl):
datamat=[]
labelmat=[]
for line in open(fl):
linearr = line.strip().split()
datamat.append([1.0,float(linearr[0]),float(linearr[1])])
labelmat.append(int(linearr[2]))
return datamat,labelmat
def sigmoid(inX):
return 1.0/(1+math.exp(-inX))
#梯度上升法
def gradAsent(datamat,labelmat,maxCycle=100):
datamatrix = np.mat(datamat)
labelmatrix = np.mat(labelmat).transpose()
m,n = np.shape(datamatrix)
alpha = 0.001
weights = np.ones(n,1)
for k in range(maxCycle):
h = sigmoid(datamatrix*weights)#此处h为矩阵
#梯度增量,错误函数
error = labelmat - h
weights += alpha * datamatrix * error
return weights
gradAsent方法中的倒数4行代码公式的依据参见:,参见
http://www.cnblogs.com/LeftNotEasy