liangdengne_123-CSDN博客

原创 AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model

AlexaTM 20B不仅可以跨语言迁移所学知识，还可以从小样本中学习新任务，官方提到，他们的研究是受到OpenAI GPT-3模型的启发，但是相较于其他唯解码器架构的大型语言模型，AlexaTM 20B采用串行到串行（seq2seq）的编码器-解码器架构。而Amazon经过分析，发现AlexaTM 20B与其他大型语言模型一样，产生的内容可能包含来自训练资料中的有毒语言、社会偏见和刻板印象，因此官方提醒用户，需对该模型的使用进行完整的公平和偏见分析，以充分了解可能产生的危害。

2023-05-28 10:51:44 128

转载 mT5: A massively multilingual pre-trained text-to-text transformer

除了屠了多个榜单之外，T5 还对整个训练流程中很多可调的超参数都调试了一遍，比如模型架构究竟用标准的 Encoder-Decoder 好还是 UniLM 那种结构好，无监督预训练任务究竟是 BERT 的方式好还是其他方式好，随机 Mask 的比例是不是 15% 最好，等等。很多人都不知道的是，自从在去年 10 月发布后，T5 在今年还经历了一次低调的小升级，具体细节可以查看 Github [2] 链接，官方把升级前的 T5 称为 T5.1.0，而升级后的叫做 T5.1.1。

2023-05-28 08:52:32 870 1

转载 BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and

我们暂时认为产生一个文章，产生一个句子的方法应该是从左往右，而BERT的训练方式不是按照文本从左往右的方式生成文本，而是根据上下文，因此根据现在产生一个句子的方法，根据上文写下下一个字，两者是不同的，虽然可以以如下图右侧的方式生成下一个，但是因为与训练的方式不同，因此效果不太理想，因此在这一方面的应用，我们会说BERT是不善言词的。，Mask语言模型，传统语言模型是给定所有前面词来预测最可能的当前词，而BERT模型则是随机的使用「mask」来掩盖一些词，并利用所有没有被掩盖的词对这些词进行预测。

2023-05-27 02:52:51 200 1

转载 ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS

诸如BERT之类的Masked 语言模型（MLM，masked language modeling）预训练方法通过用[MASK]替换一些标记来破坏输入，然后训练模型以重建原始标记。尽管它们在转移到下游NLP任务时会产生良好的结果，但它们通常需要大量计算才能有效。作为替代方案，我们提出了一种更有效的样本预训练任务，称为替换令牌检测（RTD, replaced token detection）。我们的方法不是掩盖输入，而是通过使用从小型生成器网络进行可行的替代词汇的采样，来替换一些tokens来改变输入。

2023-05-27 01:15:10 249 1

转载 Improving Language Understanding by Generative Pre-Training

在这篇论文中，作者提出了一种半监督学习方法——Generative Pre-Training（以下简称 GPT），GPT 采用无监督学习的 Pre-training 充分利用大量未标注的文本数据，利用监督学习的 Fine-tuning 来适配具体的具体的 NLP 任务（如。NLP 领域中只有小部分标注过的数据，而有大量的数据是未标注，如何只使用标注数据将会大大影响深度学习的性能，所以为了充分利用大量未标注的原始文本数据，需要利用无监督学习来从文本中提取特征，最经典的例子莫过于词嵌入技术。

2023-05-27 01:14:02 1685 1

转载 RoBERTa: A Robustly Optimized BERT Pretraining Approach

Devlin等人在 BERT Pre-training of Deep Bidirectional Transformers for Language Understanding 提出的BERT预训练研究虽然已达到最优结果，但训练成本比较高，很难彻底得到训练训练的时候通常是在不同大小的私有数据集上进行训练的，很难判断具体哪个部分对结果有促进作用所以，作者重新衡量了关键参数和数据集大小的影响，并提出了改进BERT的方法，即RoBERTa。

2023-05-27 01:08:01 111 1

转载 Deep contextualized word representations

ELMo使得词汇的向量表示可以同时考虑语境和语法，多义词方面的极大改善。效果提升在特征抽取器选择方面，ELMo使用了LSTM而不是Transformer；训练时间长，这是RNN的本质导致的，和上面的特征提取缺点差不多；ELMo采取双向拼接这种融合特征的能力可能比BERT一体化的融合特征方式弱，但是，这知识一种从到立推断产生的怀疑，目前并没有具体实验说明这一点。

2023-05-27 00:34:29 491 1

转载 The Illustrated Transformer

由于我们处理的是矩阵，我们可以将步骤 2 到 6 合并到一个公式中来计算self-attention层的输出。self-attention的矩阵计算。

2023-05-27 00:03:26 157 1

转载 Attention is all you need?

当时的序列转换模型大多是基于循环或卷积的，包括编码器和解码器。通过注意力机制连接编码器和解码器取得最好的性能。本文提出一种相对简单的Transformer，完全基于注意机制，完全不需要循环和卷积。（完全依赖于一种注意机制来表示输入和输出之间的全局依赖关系）并且在两个机器翻译任务上取得不错的效果，同时支持并行、所需的训练时间显著降低。经过实验证明Transformer还可以推广到其他任务（目前已经用于computer vision等视觉任务中了VIT）。

2023-05-26 23:47:28 132 1

转载人类自然语言理解与推理--Chris Manning教授文章解读

当科学家考虑人工智能时，他们大多会考虑对单个人脑的功能进行建模或重建。但人类的智力远不止是单个大脑的智力。人类的语言是强大的，对我们这个物种来说是变革性的，因为它为人类群体提供了一种连接人类大脑的方式。一个人可能比我们的近亲黑猩猩聪明不了多少，这些猿类拥有人类类似的许多标志性技能，比如使用工具和计划；此外，它们的短期记忆比人类好。人类发明语言的原因仍然是不明确的，但在地球上生命的漫长进化史中，人类最近的语言经历了难以置信的发展。猴子和猿的共同祖先可以追溯到大约6500万年前；

2023-05-26 22:41:34 298 1

原创 Understanding Large Language Models-TianQi Chen

1. 中文解读中文解读3. 中文解读4. 中文解读。

2023-05-26 22:40:15 495 1

liangdengne_123的博客