世界模型（自学整理，后期继续更新）

胡萝拔贝贝

已于 2024-02-02 15:07:52 修改

阅读量935

点赞数 4

文章标签： python 神经网络深度学习

于 2024-02-01 16:20:24 首次发布

本文链接：https://blog.csdn.net/weixin_42209537/article/details/135973625

版权

本文探讨了世界模型在人工智能中的重要性，介绍了如何通过机器学习（如神经网络、自监督学习）构建模型，特别是深度强化学习在含风电电力系统调度中的应用。文章还详细解析了transformer、ConvNet、RNN和GAN等常见模型在网络架构中的角色，以及位置编码在处理序列数据中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

世界模型：

是指人工智能系统对现实世界及其相互作用的理解，它包括对物理世界、社会世界和人脑的理解，世界模型使人工智能系统能够理解和应对显示世界中内的各种情况。

世界模型可以用各种方式来构建，一种方法是使用机器学习来训练模型，以预测输入数据的结果，另一种方法是使用专家知识来构架模型，例如由人类专家编写的规则。

以下是一些属于世界模型的算法模型：

神经网络：可以用于各种任务，包括自然语言处理、计算机视觉和机器人等。神经网络可以通过自监督学习来生成，根据未标记的数据来训练模型。

（----------------------------------------------- 自监督学习 ---------------------------------------------------------）

自监督学习：是一种机器学习范式，不需要人工标注的标签就可以训练模型，通过构造一些辅助任务，让模型自己学习数据中的统计关系，优势在于可以利用大量未标记的数据来训练模型，减少标注数据的成本，可以提高模型的泛化能力，不需要依赖特定的标签

有监督学习中，标签是人工标注的，表示数据的真实状态

自监督学习中，标签是模型在训练过程中自动生成的，或者就是输入数据的一部分，代表了数据的某种统计关系

文章：基于世界模型深度强化学习的含风电电力系统低碳经济调度

这个里面应该就是经验池1中有 $\left ( s_{t}, a_{t}, r_{t}, s_{t+1} \right )$ ，拿 $s_{t}$ 、 $a_{t}$ 来训练模型，将 $r_{t}$ 、 $s_{t+1}$ 作为标签，训练好后，将强化学习模型输出的 $s_{t}$ 、 $a_{t}$ 作为输入，预测 $r_{t}$ 、 $s_{t+1}$ 。所以该世界模型是用来模拟环境的。

（---------------------------------------------------------------------------------------------------------------------------）

生成模型：是一种可以生成新数据的模型，例如文本、图像和视频等。生成模型可以用于各种任务，例如文本生成、图像生成和机器翻译等。

逻辑模型：是一种基于逻辑规则来工作的模型，逻辑模型可以用于各种任务，例如推理、决策和规划等。

世界模型的网络架构

没有统一标准，可以根据不同的任务和数据集进行设计

通常来说，世界模型的网络结构都具有以下特点：

1）使用多层神经网络来学习数据中的统计关系

2）使用卷积神经网络或循环神经网络来处理图像、文本和视频等多模态数据

3）使用生成模型来生成新的数据，以提高模型的泛化能力。

常见的世界模型网络架构

transformer：是一种用于自然语言处理的架构，可以有效捕捉文本中的长距离依赖关系，可以用于预测文本、翻译语言和生成文本等任务

ConvNet：一种用于图像处理的架构，可以有效提取图像中的局部特征，可以用于图像分类、乳香识别、图像生成等任务

RNN：一种用于处理序列数据的架构，它可以有效地捕捉序列数据中的时序关系。RNN 可以用于语言模型、机器翻译和游戏等任务。

GAN：一种生成对抗网络，它可以生成逼真的数据。GAN 可以用于生成图像、生成文本和生成视频等任务。

transformer

绿色框：input_输入

transformer的输入是一个序列数据，假设是“Tom chase Jerry”，inputs就是“Tom chase Jerry”分词后的词向量

进入input embeddingh后需要给每个word的词向量添加位置编码position encoding

添加位置编码的原因：词语出现在句子中的位置不同，代表的句意也会不同。

位置编码获取方式：使用正余弦位置编码，位置编码通过使用不同频率的正弦、余弦函数生成，然后与对应的位置的词向量相加（拼接和相加都是可行的，但是拼接的话会增加维度，两者效果差不多，但是效率不同），位置向量编码和字向量的维度是一致的。

$PE\left ( pos, 2i \right )=sin\left ( \frac{pos}{10000^{\frac{2i}{d_{model}}}} \right )$

$PE\left ( pos, 2i+1 \right )=cos\left ( \frac{pos}{10000^{\frac{2i}{d_{model}}}} \right )$

pos：单词在句子中的绝对位置， $d_{model }$ ：词向量的维度，i：词向量中的第几维

transformer的decoder的输入与encoder的输入处理方法步骤是一样的，一个接收source数据，一个接收target数据。例如：encoder接收英文Tom chase Jerry”，decoder接收中文“汤姆追逐杰瑞”。只是在有target数据时才会进行监督学习，进行预测的时候是不接收output embedding的。

黄色框：encoder

黄色框内部是由多个encoder堆叠而成的，灰色框部分就是一个encoder及其内部结构，一个encoder由multi-head attention、全连接神经网络feed forward network构成。

self-attention:

假设输入序列为“thinking machines”，x1、x2分别对应“thinking”和“machines”添加过位置编码之后的词向量，维度（2， 512），然后通过三个权值矩阵 $W^{Q}$ 、 $W^{K}$ 、 $W^{V}$ ，维度均为（512， 64），转变为计算attention所需要的Query、keys、values向量，维度为（2，64）。

获得Q、K、V之后，计算attention

1) 对输入序列中每个单词之间的相关性得分， $score=Q\cdot K^{T}$ ，点积法，得（2，2）的矩阵

2) 对于输入序列中每个单词之间的相关性得分进行归一化， $score=\frac{score}{\sqrt{d^{k}}}$ ， $d^{k}$ 是k的维度，当前例子为64

3) 经过softmax函数，将每个单词之间的得分向量转换为[0, 1]之间的概率分布，score成为一个值分布在[0, 1]之间的（2,2）维度的概率分布矩阵

4) 在第三步的基础上乘上对应的values值，点积，（2,2）*（2，64）=（2，64）

总结：

multi-head attention：

在self-attention的基础上，使用多组 $W^{Q}$ 、 $W^{K}$ 、 $W^{V}$ 得到多组Q、K、V，然后每组分别计算得到一个Z矩阵，最后将得到的多个Z矩阵进行拼接，transformer里面使用了8组不同的 $W^{Q}$ 、 $W^{K}$ 、 $W^{V}$ 。

每个self-attention之后得到的Z矩阵，会直接到add&normalize中。

add：在Z的基础上加了一个残差块X，目的：防止在深度神经网络训练过程中发生退化问题

原理：如果神经网络的最佳层数为18，但是设计的时候不清楚多少层为最优解，所以设计了32层，但是实际上多的14层是多余的，想要达到18层的最优效果，就需要让多出来的14层进行恒等映射，即输入是x，输出为x，添加残差之后则是h(x)=F(x)+x，F(x)为残差，只需要让F(x)=0即可，神经网络通过训练变成0比变成x更容易。