梯度上升算法实现

最新推荐文章于 2023-12-24 17:32:38 发布

blackproof

最新推荐文章于 2023-12-24 17:32:38 发布

阅读量1.2k

点赞数

分类专栏：数据挖掘机器学习文章标签：机器学习梯度上升

本文链接：https://blog.csdn.net/blackproof/article/details/88302080

版权

机器学习同时被 2 个专栏收录

21 篇文章 1 订阅

订阅专栏

数据挖掘

5 篇文章 0 订阅

订阅专栏

机器学习实战中也详细描述了梯度上升算法，附件里是一些笔记，再贴一个还不错的帖子

转 http://blog.csdn.net/wyb_009/article/details/9205151

这个算法搞得我晚上十点打电话给弟弟，问Ln(x)，1/x的导数公式。很惭愧，大学时被我用的出神入化、化成灰我都能认出的求导公式，我今天居然忘了；这时也要说说西市佳园的移动网络信号，真不怎么好。这次我重点学习Logistic回归，涉及到了最大似然函数最大化的优化解法。

优点：计算代价不高，易于理解和实现；

缺点：容易欠拟合，分类精度可能不高；

适用数据类型：数值型和标称型数据。

Logistic回归使用Sigmoid函数分类。当x为0时，Sigmoid函数值为0.5，随着x的增大，Sigmiod函数将逼近于1；随着x的减小，Sigmoid函数将逼近于0。详情请移步http://en.wikipedia.org/wiki/Sigmoid_function。

如果用Logistic来预测呢？假设房价x和大小x1，户型x2，朝向x3这三个因素相关，x = w0 + w1*x1 + w2 * x2 + w3*x3，这里w0，w1， w2，w3是各个因素对最终房价的影响力的衡量，照常来说，房间大小x1对房价的决定性更大，那么w1会更大一些，朝向相对其他两个的影响因素更小一些，那么w3会小一些，这里假设朝向，户型和大小一样有相同的取值范围，当然，现实中朝向的取值不会多到和房子大小那么多。我们对每一个影响因素x都乘以一个系数w，然后这些计算出一个房价x，将x代入Sigmiod函数，进而得到一个取值范围在0---1之间的数，任何大于0.5的数据就被划分为一类，小于0.5的被划分为另一类。

下来看看这个函数：。这个函数很有意思，当真实值y为1时，这个函数预测值为1的概率就是Sigmoid概率，当真实值y为0时，这个函数预测值为0的概率为1-Sigmoid概率。于是这个函数代表了Sigmoid函数预测的准确程度。当我们有N个样本点时，似然函数就是这N个概率的乘积。我们要做的呢，就是找出合适的w(w0,w1,w2...)让这个似然函数最大化，也就是尽量让N个样本预测的准确率达到最高。ln(f(x))函数不会改变f(x)的方向，f(x)的最大值和ln(f(x))的的最大值应该在一个点，为了求的最大值，我们可以求的最大值。

好了，就是求最大值的问题，这次使用梯度上升法（梯度上升法是用来求函数的最大值，梯度下降法是用来求函数的最小值）。梯度上升法的的思想是：要找到某函数的最大值，最好的方法是沿着该函数的梯度方向探寻，这样梯度算子总是指向函数增长最快的方向：，a为每次上升移动的步长，是f(w)的导数。

下来呢，为了求的最大值，需要求这个函数的导数？然后让我们让预估的参数每次沿着导数的方向增加一定的步长a。

错误注解：上边求导错误，应该再乘以xi

于是w:=w+a(y-h(x))，y是真实分类值，x是真实属性值，h(x)是预测值，也即是h(x)= w0 + w1*x1 + w2 * x2 + w3*x3...

说了这多，下面来实现这个算法实现

      
  
def grad_ascent(dataset, datalabel):  
    weight = [1 for i in range(len(dataset[0]))]  
    alpha = 0.01  
    for k in range(500):  
        errset = []  
        for i in range(len(dataset)):  
            sig = sigmoid(dataset[i], weight)  
            errset.append(datalabel[i]-sig)  
              
        for i in range(len(dataset[0])):  
            for j in range(len(dataset)):  
                weight[i] += alpha*dataset[j][i]*errset[j]   
    return weight  
      
def rand_grad_ascent(dataset, datalabel):  
    weight = [1 for i in range(len(dataset[0]))]  
    alpha = 0.01  
    for i in range(len(dataset)):  
        sig = sigmoid(dataset[i], weight)  
        err = datalabel[i] - sig  
        for j in range(len(weight)):  
            weight[j] += alpha*err*dataset[i][j]  
              
    return weight  

整体测试文件如下：

[python]view plaincopyprint?
        
    
import math  
def sigmoid(data, weight):  
    z = sum([data[i]*weight[i] for i in range(len(data))])  
    try:  
        return 1.0/(1+math.exp(-z))  
    except:  
        if z > 0: return 1.0  
        else: return 0.0  
      
def logistic_classify(data, weight):  
    prob = sigmoid(data, weight)  
    if prob > 0.5: return 1.0  
    else: return 0.0  
      
def grad_ascent(dataset, datalabel):  
    weight = [1 for i in range(len(dataset[0]))]  
    alpha = 0.01  
    for k in range(500):  
        errset = []  
        for i in range(len(dataset)):  
            sig = sigmoid(dataset[i], weight)  
            errset.append(datalabel[i]-sig)  
              
        for i in range(len(dataset[0])):  
            for j in range(len(dataset)):  
                weight[i] += alpha*dataset[j][i]*errset[j]   
    return weight  
      
def rand_grad_ascent(dataset, datalabel):  
    weight = [1 for i in range(len(dataset[0]))]  
    alpha = 0.01  
    for i in range(len(dataset)):  
        sig = sigmoid(dataset[i], weight)  
        err = datalabel[i] - sig  
        for j in range(len(weight)):  
            weight[j] += alpha*err*dataset[i][j]  
              
    return weight  
      
def test(class_func):  
    f_train = open('horseColicTraining.txt')  
    f_test = open('horseColicTest.txt')  
      
    trainset, trainlabel = [], []  
    for line in f_train.readlines():  
        line_cur = line.strip().split('\t')  
        trainset.append([1]+[float(line_cur[i]) for i in range(21)])  
        trainlabel.append(float(line_cur[21]))  
          
    trainweight = class_func(trainset, trainlabel)  
      
    errnu, tolnum= 0, 0  
    for line in f_test.readlines():  
        line_cur = line.strip().split('\t')  
        pred_class = logistic_classify([1]+[float(line_cur[i]) for i in range(21)], trainweight)  
        read_class = float(line_cur[21])  
        if pred_class == read_class:  
            #print "class succ"  
            pass  
        else:  
            errnu += 1  
            #print "class fail, read_class=%d, pred_class=%d" %(read_class, pred_class)  
        tolnum += 1  
          
    print "totol num=%d, fail num = %d, rate = %f" % (tolnum, errnu, float(errnu)/tolnum)  
      
if __name__ == '__main__':  
    test(grad_ascent)  
    test(rand_grad_ascent)