二项逻辑斯谛回归（Binomial Logistic Regression Model）—有监督学习方法、概率/非概率模型、生成/判别模型、线性模型、参数化模型、批量学习

剑海风云

于 2024-09-10 19:04:06 发布

阅读量577

点赞数 12

分类专栏： Artificial Intelligence 文章标签：人工智能机器学习逻辑斯谛回归 LR

本文链接：https://blog.csdn.net/nanxiaotao/article/details/142106472

版权

Artificial Intelligence 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

定义

条件概率分布：

$P(Y=1|x)=\dfrac{exp(\omega \cdot x + b)}{ 1 + exp( \omega \cdot x + b )}$

$P(Y=0|x)=\dfrac{ 1 }{ 1 + exp( \omega \cdot x + b )}$

输入： $\in R^n$

输出： $\in \{ 0,1 \}$

参数：

权值向量： $\omega \in R^n$ ,

偏置：$b \in R $

$\omega和x的内积$ ： $\omega \cdot x + b$

输入空间

T= $\left\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\right\}$

import numpy as np


def loadData(fileName):
    '''
    加载Mnist数据集 下载地址：https://download.csdn.net/download/nanxiaotao/89720991）
    :param fileName:要加载的数据集路径
    :return: 数据集
    '''
    # 存放数据及标记的list
    dataList = []; labelList = []
    # 打开文件
    fr = open(fileName, 'r')
    # 将文件按行读取
    for line in fr.readlines():
        curLine = line.strip().split(',')
        if int(curLine[0]) == 0:
            labelList.append(1)
        else:
            labelList.append(0)
        dataList.append([int(num)/255 for num in curLine[1:]])

    #返回data和label
    return dataList, labelList

trainData, trainLabel = loadData('../Mnist/mnist_train.csv')

np.shape(trainData)

特征空间（Feature Space）

trainData[0][0:784]

统计学习方法

模型

$P(Y=1|x)=\dfrac{exp(\omega \cdot x + b)}{ 1 + exp( \omega \cdot x + b )}$

$P(Y=0|x)=\dfrac{ 1 }{ 1 + exp( \omega \cdot x + b )}$

策略

$L(\omega)_{max} = max \big(\sum_{i=1}^n\big[ y_i(\omega \cdot x_i)-log(1+exp(\omega \cdot x_i)) \big]\big)$

算法

$x_i * y_i - \dfrac{exp(\omega * x_i) * x_i}{1 + exp(\omega * x_i)}$

def logisticRegression(trainDataList, trainLabelList, iter = 200):
    '''
    逻辑斯蒂回归训练过程
    :param trainDataList:训练集
    :param trainLabelList: 标签集
    :param iter: 迭代次数
    :return: 习得的w
    '''
    for i in range(len(trainDataList)):
        trainDataList[i].append(1)

    trainDataList = np.array(trainDataList)
    w = np.zeros(trainDataList.shape[1])

    #设置步长
    h = 0.001

    #迭代iter次进行随机梯度下降
    for i in range(iter):
        #每次迭代冲遍历一次所有样本，进行随机梯度下降
        for j in range(trainDataList.shape[0]):
            wx = np.dot(w, trainDataList[j])
            yi = trainLabelList[j]
            xi = trainDataList[j]
            #梯度上升
            w +=  h * (xi * yi - (np.exp(wx) * xi) / ( 1 + np.exp(wx)))
    #返回学到的w
    return w

w = logisticRegression(trainData, trainLabel)

假设空间（Hypothesis Space）

$\left\{f|f(x) = max \big(\sum_{i=1}^n\big[ y_i(\omega \cdot x_i)-log(1+exp(\omega \cdot x_i)) \big]\big) \right\}$

输出空间

$\in \{ 0,1 \}$

模型评估

训练误差

testData, testLabel = loadData('../Mnist/mnist_test.csv')

def predict(w, x):
    '''
    预测标签
    :param w:训练过程中学到的w
    :param x: 要预测的样本
    :return: 预测结果
    '''
    #dot为两个向量的点积操作，计算得到w * x
    wx = np.dot(w, x)
    #计算标签为1的概率
    P1 = np.exp(wx) / (1 + np.exp(wx))
    #如果为1的概率大于0.5，返回1
    if P1 >= 0.5:
        return 1
    #否则返回0
    return 0

def model_test(testDataList, testLabelList, w):
    '''
    验证
    :param testDataList:测试集
    :param testLabelList: 测试集标签
    :param w: 训练过程中学到的w
    :return: 正确率
    '''
    for i in range(len(testDataList)):
        testDataList[i].append(1)

    #错误值计数
    errorCnt = 0
    #对于测试集中每一个测试样本进行验证
    for i in range(len(testDataList)):
        #如果标记与预测不一致，错误值加1
        if testLabelList[i] != predict(w, testDataList[i]):
            errorCnt += 1
    #返回准确率
    return 1 - errorCnt / len(testDataList)

accuracy = model_test(testData, testLabel, w)
# 打印准确率
print('the accuracy is:', accuracy)

测试误差

模型选择

过拟合

正则化

泛化能力

剑海风云

关注

12
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
二项逻辑斯谛回归（Binomial Logistic Regression Model）—有监督学习方法、概率/非概率模型、生成/判别模型、线性模型、参数化模型、批量学习

二项逻辑斯谛回归（Binomial Logistic Regression Model）—有监督学习方法、概率/非概率模型、生成/判别模型、线性模型、参数化模型、批量学习
复制链接

扫一扫

专栏目录