ProtsTrans论文学习笔记

最新推荐文章于 2024-07-25 22:24:14 发布

码农吊兴

最新推荐文章于 2024-07-25 22:24:14 发布

阅读量797

点赞数 19

文章标签：学习笔记

本文链接：https://blog.csdn.net/m0_74366152/article/details/138246977

版权

1.训练了两个自回归模型Transformer-XL, XLNet)和四个自编码器模型(BERT, Albert, Electra, T5)，

2.数据来源UniRef50,UniRef100和BFD，包含3930亿个氨基酸

UniRef：集成了三大蛋白质数据库，并经过高质量处理的大型权威数据库，包含多个子库

详细介绍一文极速读懂 Uniprot 蛋白质数据库 - 知乎 (zhihu.com)

BFD：AlphaFold2所用序列库大超凡(BFD)

大超凡就是由文章的第25作者 Martin Steinegger（M.S.）构建的序列数据库。

3.蛋白质LMs (pLMs)在Summit超级计算机上使用5616 gpu和高达1024核的TPU Pod进行训练。

Summit（顶点）超级计算机是IBM计划研发的一款超级计算机，其计算性能超过中国TaihuLight超级计算机。

Gpu：图形处理单元

Tpu张量处理单元

4.随机种子的设置

通过设置不同的随机种子可以给模型的不同的初始参数

预训练模型概述

（模型简介）

BERT： BERT是第一个双向模型，用于重构被破坏的token（词元）。它被认为是NLP中迁移学习的事实标准。BERT通过预测输入中被掩盖的部分来训练模型，从而学习语境中的深层次语义。

Albert：Albert是对BERT的简化，通过在其注意力层之间进行硬参数共享来减少模型复杂度，这允许增加更多的注意力头（本文中选择了64个）。这种设计减少了模型的大小和训练成本，同时保持了性能。

Electra：Electra通过训练两个网络（生成器和鉴别器）来提高预训练任务的采样效率。生成器（基于BERT）负责重构被掩盖的token，可能创造出合理的替代选项；而鉴别器（Electra）则检测哪些token是被掩盖的。这种方法让所有token都能计算损失，而不仅仅是被破坏的token（通常只有15%），从而丰富了训练信号。

T5：T5使用了最初为序列翻译提出的原始变压器架构，包括一个编码器和一个解码器。编码器将源语言投射到一个嵌入空间，解码器则基于编码器的嵌入生成目标语言的翻译。T5显示了这种设计的简化可能需要付出一定的代价，但它在多个NLP基准测试中达到了最先进的结果。此外，它还提供了应用不同训练方法和掩码策略的灵活性，例如，T5允许重构token的跨度而不仅仅是单个token。

Transformer-XL和XLNet：这些模型使用了T5的解码器或编码器的一部分，以实现更专注的功能。Transformer-XL和XLNet都旨在处理更长的序列数据，以提高模型在处理长文本时的性能和效率。

7.Global batch size和local batch size的区别：

在分布式训练中，`local batch size` 和 `global batch size` 是两个常用的术语，它们定义了训练过程中用于梯度计算的数据批量大小：

1. **Local Batch Size**:

- 这指的是分配给单个训练单元（比如一个GPU或者CPU）的数据批量大小。

- 在模型并行化训练中，每个计算单元只处理其分配的数据子集。

- Local batch size影响着单个训练单元的内存使用和计算需求。

2. **Global Batch Size**:

- 这是所有训练单元处理的数据总和，等于所有单个计算单元的local batch sizes之和。

- 在数据并行化训练中，每个计算单元处理不同的数据批量，但是它们都是从相同的数据集中分配得到的，这些数据批量的大小是local batch size。所有计算单元完成一次迭代后得到的参数更新会被合并，这一合并过程会参考所有local batch的数据，因此得到的是global batch size对应的更新。

- Global batch size直接影响模型训练的稳定性和最终的性能，较大的global batch size可以提高训练的效率，但也可能需要更精细的学习率调整策略来保持训练稳定。

简单来说，local batch size关注单个计算单元上的数据处理，而global batch size是指整个分布式系统中用于一次参数更新的总数据量。调整这两个参数可以影响训练速度、内存使用和模型性能。

8.位置编码

相对位置编码和绝对位置编码

由于绝对位置编码只关注单个位置信息，因此它的实现通常在输入层，可以通过简单的向量相加融入模型；而相对位置一定是pair对的信息，因此它无法直接在输入层实现，通常是通过改变Attention_score的计算方式来实现。

因此绝对位置编码无法处理长序列，因为他在输入的时候就要嵌入，已经固定好长度了

绝对位置编码：绝对位置编码是在序列中每个位置上都固定地分配一个唯一的编码。这种编码通常是基于正弦和余弦函数的周期性函数生成的。

相对位置编码：

码农吊兴

关注

19
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
ProtsTrans论文学习笔记

在数据并行化训练中，每个计算单元处理不同的数据批量，但是它们都是从相同的数据集中分配得到的，这些数据批量的大小是local batch size。所有计算单元完成一次迭代后得到的参数更新会被合并，这一合并过程会参考所有local batch的数据，因此得到的是global batch size对应的更新。- Global batch size直接影响模型训练的稳定性和最终的性能，较大的global batch size可以提高训练的效率，但也可能需要更精细的学习率调整策略来保持训练稳定。
复制链接

扫一扫