SoftMax回归简介及python代码实现

最新推荐文章于 2024-07-12 08:06:11 发布

hello_gogogo

最新推荐文章于 2024-07-12 08:06:11 发布

阅读量2.2k

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_32933503/article/details/78151923

版权

机器学习专栏收录该内容

8 篇文章 2 订阅

订阅专栏

1、SoftMax回归概率分布模型：

对于K分类，第 k 类的参数为 $\theta_k$ , 组成二维矩阵 $\theta_{K\times(n+1)}$ ， $K$ 是总共的类别数目， $n$ 是特征数目。
$P(c=k|x;\theta) = \frac{exp(\theta_k^Tx)}{\sum\limits_{l=1}^Kexp(\theta_l^Tx)}$ ， $k =1、2、3、、、K$

2、目标函数

似然函数：

$L(\theta) = \prod\limits_{i=1}^m \prod\limits_{k=1}^KP(c=k|x^{(i)};\theta ) = \prod\limits_{i=1}^m \prod\limits_{k=1}^K\left( \frac{ exp(\theta_k^Tx^{(i)}) }{ \sum\limits_{l=1}^K exp(\theta_l^Tx^{(i)}) } \right)^{y_k^{(i)}}$ 。

对数似然函数：

$J_m(\theta) = log(L(\theta)) = \sum\limits_{i=1}^m \sum\limits_{k=1}^K y_k^{(i)}*\left( \theta_k^Tx^{(i)} - log\sum\limits_{l=1}^Kexp(\theta_l^Tx^{(i)}) \right)$

$J(\theta) = \sum\limits_{k=1}^K y_k*\left( \theta_k^Tx^{(i)} - log\sum\limits_{l=1}^Kexp(\theta_l^Tx^{(i)}) \right)$

对对数似然函数求偏导：

$\frac{ \partial J(\theta) }{\partial \theta_k} = \left( y_k - \frac{\theta_k^Tx}{\sum\limits_{l=1}^Kexp(\theta_l^Tx)} \right)*x$

3、引入权重衰减项

为防止参数过大，引入权重衰减项改变代价函数，引入的衰减项会惩罚过大的参数：

$J_m(\theta) = log(L(\theta)) = \sum\limits_{i=1}^m \sum\limits_{k=1}^K y_k^{(i)}*\left( \theta_k^Tx^{(i)} - log\sum\limits_{l=1}^Kexp(\theta_l^Tx^{(i)}) \right) + \frac{\lambda}{2} \sum\limits_{i=1}^m \sum\limits_{k=1}^K\theta_{ik}^2$ .

4、参数 $\theta$ 优化

使用梯度上升法： $\alpha$ 是学习率

$\theta_k = \theta_k + \alpha( (y_k - P(y_k|x;\theta))*x + \lambda \theta_k)$

代码实现问题：

一、在求取 $\theta$ 时，每次求取的是一个向量。

二、代码实现步骤：对每个样本，要执行 K 次迭代，K是类别数目。当样本标签 = $k$ 时， $y_k = 1$ , 否则， $y_k = 0$ 。详细解释参考SoftMax

三、在计算 $P(y_k|x;\theta)$ 时，需要先计算 $exp(\theta^T_kx^{(i)})$ 和 $\sum\limits_{l=1}^Kexp(\theta_k^Tx)$ 两项

代码：测试数据鸢尾花数据集：

# -*- coding:utf-8 -*-
from numpy import *
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split

def loadData():             # 数据读入处理
    data = pd.read_csv("iris.data", header=None)
    m, n = shape(data)
    y = pd.Categorical(data[4]).codes        # 对不同的标签进行编码
    x_prime = mat(data[range(n - 1)])        # 将所有的样本特征复制给x_prime,   最后一列是标签
    x = mat(ones((m, n)))                    # x0 是1，其余列是特征
    for i in range(n-2):
        x[:, i + 1] = x_prime[:, i]
    x_train, x_test, y_train, y_test = train_test_split(x, y, train_size=0.6, random_state=0)  # 训练集和测试集划分
    return x_train, x_test, y_train, y_test

def Cal_OnePredect(thetaI,x):       # 计算概率模型中的分子项
    return exp(thetaI*x.T)

def cal_Predect(theta,x,K,k):                                # 有概率模型计算发生的概率
    Numerator = Cal_OnePredect(theta[k],x)                     # 分子项
    Denominator = sum(Cal_OnePredect(theta[i],x) for i in range(K))  # 分母项
    return Numerator/Denominator

def Cal_Theta(x_train,y_train):           # x_train 已经包括了 x0 = 1 项
    m,n = shape(x_train)                  # m 样本数目， n  = 特征数目 + 1
    K = len(set(y_train))                 # 类别数目
    theta = mat(zeros((K,n)))             # theta 是 K 行 n 列的矩阵
    alpha = 0.001
    weight_lambda = 0.01
    for i in range(500):               # 设置迭代次数
        for j in range(m):                # 对每个样本
            for k in range(K):
                y_trun = int(y_train[j]==k)         # 是否属于当前类别
                Predect = cal_Predect(theta,x_train[j],K,k)
                theta[k] = theta[k] + alpha*((y_trun - Predect)*x_train[j] - weight_lambda*theta[k])
    return theta


def ModelPredect(theta,x_test):          # 预测函数, 返回预测的结果
    labels = []
    for x in (x_test):
        result = theta * x.T
        m = argmax(result)
        labels.append(m)
    return labels

def Accuracy_Score(Text,Predect):        # 计算正确率
    m = len(Text)
    j = 0.0
    for i in range(m):
        if Text[i] == Predect[i]:
            j += 1.0
    return j/m

if __name__=="__main__":
    x_train, x_test, y_train, y_test = loadData()
    # y_train 数据类型 numpy.ndarray, 类别标签
    # 输入：x_train 数据类型 m x n 的 Matrix， m = 样本数目， n = 特征数目 + 1
    theta = Cal_Theta(x_train, y_train)
    print "theta =\n", theta               # theta 是 k 行 n 的矩阵，k 是类别数目，n 是特征数目加1

    # 训练集上的预测结果
    y_train_pred = ModelPredect(theta,x_train)
    acc_Train = Accuracy_Score(y_train,y_train_pred)
    print '\t训练集准确率: %.4f%%' % (100 * acc_Train)
    #测试集上的预测结果
    y_test_pred = ModelPredect(theta,x_test)
    acc_Test = Accuracy_Score(y_test,y_test_pred)
    print '\t测试集准确率: %.4f%%\n' % (100 * acc_Test)

测试结果：
数据较少，有些过拟合

参考：
《统计学习方法》李航
http://ufldl.stanford.edu/wiki/index.php/Softmax%E5%9B%9E%E5%BD%92 理论参考
http://blog.csdn.net/wds2006sdo/article/details/53699778?utm_source=itdadao&utm_medium=referral 代码参考

hello_gogogo

关注

1
点赞
踩
26

收藏

觉得还不错? 一键收藏
1
评论
SoftMax回归简介及python代码实现

1、SoftMax回归概率分布模型：对于K分类，第 k 类的参数为θK\theta_K, 组成二维矩阵θk×(n+1)\theta_{k\times(n+1)}，KK 是总共的类别数目，nn 是特征数目。 P(c=k|x;θ)=θTkx∑l=1Kexp(θTkx)P(c=k|x;\theta) = \frac{\theta_k^Tx}{\sum\limits_{l=1}^Kexp(\theta_k
复制链接

扫一扫

专栏目录