《机器学习实战》学习总结4——Logistic回归

最新推荐文章于 2022-12-07 23:49:11 发布

Alchemist.L

最新推荐文章于 2022-12-07 23:49:11 发布

阅读量194

点赞数 1

分类专栏：机器学习实战文章标签：机器学习实战 Logistic回归逻辑回归机器学习

本文链接：https://blog.csdn.net/qq_41319343/article/details/83868608

版权

什么是回归？
用一条线对数据进行拟合，这个过程叫做回归。

logistic回归与sigmoid函数
sigmoid范围是0~1，对线的结果进行计算
引入梯度上升

Logistic回归的一般过程

（1）收集数据：采用任意方法收集数据。
（2）准备数据：由于需要进行距离计算，因此要求数据类型为数值型。（有限）另外，结构化数据格式则最佳。
（3）分析数据：采用任意方法对数据进行分析。
（4）训练算法：大部分时间将用于训练，训练的目的是为了找到最佳的分类回归系数
（5）测试算法：一旦训练完成，分类将会很快。
（6）使用算法：首先，我们需要输入一些数据，并将起转化成对应的结构化数值。接着，基于训练好的回归系数既可以对这些数值进行简单的回归计算，在这之后，我们就可以在输出的类别上做一些其他分析工作。

4.1 基于Logistic回归和Sigmoid函数分类

优点：计算代价不高，易于理解和实现。
缺点：容易欠拟合，分类精度可能不高。
使用数据类型：数值型和标称型数据。

4-1 Logistic回归梯度上升优化方法

from numpy import *
def loadDataSet():   # 加载数据集
    dataMat = []  # 创建数据列表
    labelMat = []  # 创建标签列表
    fr = open('testSet.txt')  # 打开测试数据文件
    for line in fr.readlines():  # 读取文件每一行
        lineArr = line.strip().split()  # 除去每一行的空格后拆分成列表， 例如 ['0.317029', '14.739025', '0']
        dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])  # 增加子列表，[1.0,lineArr第一个元素（float）,lineArr第二个元素（float）]
        labelMat.append(int(lineArr[2]))  # 添加元素，元素来源于 lineArr列表的第三个元素（transform str to int first）         
    return dataMat, labelMat  # 返回数据列表，标签列表

# 注：[1.0, float(lineArr[0]), float(lineArr[1])] 中的1.0 表示的是特征X0 的值，一般默认X0 = 1.0（or 1）
def sigmoid(inX):   # 定义sigmoid函数， 同书P74
    return 1.0/(1+exp(-inX))

def gradAscent(dataMatIn, classLabels):  # 定义梯度上升函数
    dataMatrix = mat(dataMatIn)   # 把数据列表转化成矩阵形式（列表和矩阵的简单差别：列表一般是一行，以逗号分隔，而矩阵是多行，没逗号）
    labelMat = mat(classLabels).transpose()  # 把标签列表转化成矩阵形式，然后转置 （行向量 -> 列向量）
    m,n = shape(dataMatrix)   # 取 数据矩阵的行和列   第一个是 行数m=100， 第二个是 列数n=3 
    alpha = 0.001   # 学习率初始化 = 0.001，步长
    maxCycles = 500   # 最大循环次数 = 500 迭代次数
    weights = ones((n,1))  # 权重初始化为 = 0.0   列向量（形式为n行1列）
    for k in range(maxCycles):  
        h = sigmoid(dataMatrix * weights)  # 1.0/(1+exp(-Z)    f[x,y]

最低0.47元/天解锁文章

Alchemist.L

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《机器学习实战》学习总结4——Logistic回归

什么是回归？用一条线对数据进行拟合，这个过程叫做回归。logistic回归与sigmoid函数sigmoid范围是0~1，对线的结果进行计算引入梯度上升Logistic回归的一般过程（1）收集数据：采用任意方法收集数据。（2）准备数据：由于需要进行距离计算，因此要求数据类型为数值型。（有限）另外，结构化数据格式则最佳。（3）分析数据：采用任意方法对数据进行分析。（4）训练算法：...
复制链接

扫一扫