Java开发者的神经网络进阶指南：深入探讨交叉熵损失函数

本文链接：https://blog.csdn.net/2401_85379281/article/details/139860460

前言

今天来讲一下损失函数——交叉熵函数，什么是损失函数呢？大体就是真实与预测之间的差异，这个交叉熵（Cross Entropy）是Shannon信息论中一个重要概念，主要用于度量两个概率分布间的差异性信息。在信息论中，交叉熵是表示两个概率分布 p，q 的差异，其中 p 表示真实分布，q 表示预测分布，那么 H(p,q)H(p,q)H(p,q)就称为交叉熵：

H(p,q)=−∑i=0np(i)lnq(i)H(p,q) = -\sum_{i=0}^n p(i)ln^{q(i)}H(p,q)=−∑i=0np(i)lnq(i)

交叉熵是一种常用的损失函数，特别适用于神经网络训练中。在这种函数中，我们用 p 来表示真实标记的分布，用 q 来表示经过训练后模型预测的标记分布。通过交叉熵损失函数，我们可以有效地衡量模型预测分布 q 与真实分布 p 之间的相似性。

交叉熵函数是逻辑回归（即分类问题）中常用的一种损失函数。

前置知识

有些同学和我一样，长时间没有接触数学，已经完全忘记了。除了基本的加减乘除之外，对于交叉熵函数中的一些基本概念，他们可能只记得和符号。今天我会和大家一起回顾一下，然后再详细解释交叉熵函数。首先，我们来简单了解一下指数和对数的基本概念。

指数

x3x^3x3 是一个典型的立方函数，大家对平方和立方可能都有所了解。指数级增长的函数具有特定的增长规律，让我们更深入地记忆和理解它们的分布特性。

这个概念非常简单，无需举例子来说明。重要的是要记住一个关键点：指数函数的一个特殊性质是它们都经过点（0,1），这意味着任何数的0次幂都等于1。

对数

好的，铺垫已经完成了。现在让我们继续探讨对数函数的概念。前面讲解了指数函数，对数函数则是指数函数的逆运算。如果有一个指数函数表达式为y=axy = a^xy=ax，那么它的对数表达式就是x=log⁡ayx = \log_a yx=logay。为了方便表示，我们通常将左侧的结果记为yyy，右侧的未知函数记为xxx，因此对数函数最终表示为y=log⁡axy = \log_a xy=logax。为了更加深刻地记忆这一点，让我们看一下它的分布图例。

当讨论指数函数时，我们了解到其图像在( (0,1) ) 处穿过横轴。然而，当我们转而讨论对数函数时，其表示形式导致了这一点被调换至( (1,0) )，因此对于对数函数而言，它的恒过点即为( (1,0) )。

剩下关于对数的变换我就不再详细讲解了。现在让我们深入探讨一下熵的概念。

交叉熵函数

熵

在探讨交叉熵之前，我们先来了解一下熵的概念。熵是根据已知的实际概率计算信息量的度量，那么信息量又是什么呢？

信息论中，信息量的表示方式：I(xj)=−ln(pxj)I(x_j) = -ln^{(px_j)}I(xj)=−ln(pxj)

xjx_jxj：表示一个事件。

pxjpx_jpxj：表示一个事件发生的概率。

−ln(pxj)-ln^{(px_j)}−ln(pxj)：表示某一个事件发生后会有多大的信息量，概率越低，所发生的信息量也就越大。

这里为了更好地说明，我来举个例子。比如说有些人非常喜欢追星。那么，按照一般的逻辑来说，我们可以谈谈明星结婚这件事的概率分布：

事件编号	事件	概率p	信息量 I
x1x_1x1	两口子都在为事业奋斗照顾家庭	0.7	I(x1)=−ln0.7=0.36I(x_1) = -ln^{0.7}= 0.36I(x1)=−ln0.7=0.36
x2x_2x2	两口子吵架	0.2	I(x2)=−ln0.2=1.61I(x_2) = -ln^{0.2}= 1.61I(x2)=−ln0.2=1.61
x3x_3x3	离婚了	0.1	I(x3)=−ln0.1=2.30I(x_3) = -ln^{0.1}= 2.30I(x3)=−ln0.1=2.30

从上面的例子可以看出，如果一个事件的概率很低，那么它所带来的信息量就会很大。比如，某某明星又离婚了！这个消息的信息量就非常大。相比之下，“奋斗”事件的信息量就显得小多了。

按照熵的公式进行计算，那么这个故事的熵即为：

熵：H§=−∑jn(pxj)ln(pxj)H§ = -\sum_j^n(px_j)ln{(px_j)}H§=−∑jn(pxj)ln(pxj)

计算得出：H§=−[(px1)ln(px1)+(px2)ln(px2)+(px3)ln(px3)]=−[0.7∗0.36+0.2∗1.61+0.1∗2.3]=0.804H§ = -[(px_1)ln^{{(px_1)}+(px_2)ln}{(px_2)}+(px_3)ln^{(px_3)}] = -[0.7*0.36+0.2*1.61+0.1*2.3] = 0.804H§=−[(px1)ln(px1)+(px2)ln(px2)+(px3)ln(px3)]=−[0.7∗0.36+0.2∗1.61+0.1∗2.3]=0.804

相对熵(KL散度)

上面我们讨论了熵的概念及其应用，熵仅考虑了真实概率分布。然而，我们的损失函数需要考虑真实概率分布与预测概率分布之间的差异。因此，我们需要进一步研究相对熵（KL散度），其计算公式为：

H§=∑jn(pxj)ln(pxj)(qxj)H§ = \sum_j^n(px_j)ln{(px_j) \over (qx_j)}H§=∑jn(pxj)ln(qxj)(pxj)

哎，这其实就是在原先的公式中加了一个q(xj)q(x_j)q(xj)而已。对了，这里的q(xj)q(x_j)q(xj)指的是加上了预测概率分布qqq。我们知道对数函数的对称点是（1,0）。因此，很容易推断出，当真实分布ppp和预测分布qqq越接近时，KL散度DDD的值就越小。当它们完全相等时，KL散度恒为0，即在点（1,0）。这样一来，我们就能够准确地衡量真实值与预测值之间的差异分布了。但是没有任何一个损失函数是能为0 的。

当谈到相对熵已经足够时，为何需要进一步讨论交叉熵呢？让我们继续深入探讨这个问题。

交叉熵

重头戏来了，我们继续看下相对熵函数的表达式：H§=∑jn(pxj)ln(pxj)(qxj)H§ = \sum_j^n(px_j)ln{(px_j) \over (qx_j)}H§=∑jn(pxj)ln(qxj)(pxj)

这里注意下，logpqlog^{p \over q}logqp是可以变换的，也就是说logpqlog^{p \over q}logqp = logp−logqlog^p -log^ qlogp−logq，这么说，相对熵转换后的公式就是：H§=∑jn(pxj)ln(pxj)−∑jn(pxj)ln(qxj)=−H§+H(p,q)H§ = \sum_j^n(px_j)ln{(px_j)} - \sum_j^n(px_j)ln{(qx_j)} = -H§ + H(p,q) H§=∑jn(pxj)ln(pxj)−∑jn(pxj)ln(qxj)=−H§+H(p,q)

当我们考虑到H§H§H§在处理不同分布时并没有太大作用时，这是因为ppp的熵始终保持不变，它是由真实的概率分布计算得出的。因此，损失函数只需专注于后半部分H(p,q)H(p,q)H(p,q)即可。

所以最终的交叉熵函数为：−∑jn(pxj)ln(qxj)-\sum_j^n(px_j)ln{(qx_j)}−∑jn(pxj)ln(qxj)

这里需要注意的是，上面显示的是一个样本计算出的多个概率的熵值。通常情况下，我们考虑的是多个样本，而不仅仅是单一样本。因此，我们需要在前面添加样本的数量，最终表示为：−∑im∑jn(pxj)ln(qxj)-\sum_i^m\sum_jn(px_j)ln^{(qx_j)}−∑im∑jn(pxj)ln(qxj)

代码实现

这里主要使用Python代码来实现，因为其他语言实现起来没有必要。好的，让我们来看一下代码示例：

import numpy as np

def cross_entropy(y_true, y_pred):
    # 用了一个最小值
    epsilon = 1e-15
    y_pred = np.clip(y_pred, epsilon, 1 - epsilon)
    
    # Computing cross entropy
    ce = - np.sum(y_true * np.log(y_pred))
    return ce

# Example usage:
y_true = np.array([1, 0, 1])
y_pred = np.array([0.9, 0.1, 0.8])

ce = cross_entropy(y_true, y_pred)
print(f'Cross Entropy: {ce}')

这里需要解释一下为什么要使用一个最小值。因为对数函数的特性是，其参数 ( x ) 可以无限接近于0，但不能等于0。因此，如果参数等于0，就会导致对数函数计算时出现错误或无穷大的情况。为了避免这种情况，我们选择使用一个足够小的最小值作为阈值，以确保计算的稳定性和正确性。

总结

在本文中，我们深入探讨了交叉熵函数作为一种重要的损失函数，特别适用于神经网络训练中。交叉熵通过衡量真实标签分布与模型预测分布之间的差异，帮助优化模型的性能。我们从信息论的角度解释了交叉熵的概念，它是基于Shannon信息论中的熵而来，用于度量两个概率分布之间的差异。

在讨论中，我们还回顾了指数和对数函数的基本概念，这些函数在交叉熵的定义和理解中起着重要作用。指数函数展示了指数级增长的特性，而对数函数则是其逆运算，用于计算相对熵和交叉熵函数中的对数项。

进一步探讨了熵的概念及其在信息论中的应用，以及相对熵（KL散度）作为衡量两个概率分布差异的指标。最后，我们详细介绍了交叉熵函数的定义和实际应用，以及在Python中的简单实现方式。

通过本文，希望读者能够对交叉熵函数有一个更加深入的理解，并在实际应用中运用此知识来优化和改进机器学习模型的训练效果。

如何系统的去学习大模型LLM ？

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以V扫描下方二维码免费领取🆓

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

在这里插入图片描述

四、AI大模型商业化落地方案

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.2.1 什么是Prompt
- L2.2.2 Prompt框架应用现状
- L2.2.3 基于GPTAS的Prompt框架
- L2.2.4 Prompt框架与Thought
- L2.2.5 Prompt框架与提示词
- L2.3 流水线工程
- L2.3.1 流水线工程的概念
- L2.3.2 流水线工程的优点
- L2.3.3 流水线工程的应用
- L2.4 总结与展望

阶段3：AI大模型应用架构实践

目标：深入理解AI大模型的应用架构，并能够进行私有化部署。
内容：
- L3.1 Agent模型框架
- L3.1.1 Agent模型框架的设计理念
- L3.1.2 Agent模型框架的核心组件
- L3.1.3 Agent模型框架的实现细节
- L3.2 MetaGPT
- L3.2.1 MetaGPT的基本概念
- L3.2.2 MetaGPT的工作原理
- L3.2.3 MetaGPT的应用场景
- L3.3 ChatGLM
- L3.3.1 ChatGLM的特点
- L3.3.2 ChatGLM的开发环境
- L3.3.3 ChatGLM的使用示例
- L3.4 LLAMA
- L3.4.1 LLAMA的特点
- L3.4.2 LLAMA的开发环境
- L3.4.3 LLAMA的使用示例
- L3.5 其他大模型介绍