预训练语言模型(Transformer、BERT、GPT等)
文章平均质量分 95
预训练语言模型是NLP中的核心之一,在pretrain-finetune这一阶段的NLP发展中发挥着举足轻重的作用。预训练语言模型的无监督训练属性,使其非常容易获取海量训练样本,并且训练好的语言模型包含很多语义语法知识,对于下游任务的效果会有非常明显的提升。
Sonhhxg_柒
Save your heart for someone who cares. #愿岁月清净 抬头遇见皆是柔情#
展开
-
【Pytorch】带注释的Transformer (各个部件的实现及应用实例)
在过去的一年里,很多人都在关注中的变形金刚。除了在翻译质量上产生重大改进外,它还为许多其他 NLP 任务提供了新的架构。论文本身写得很清楚,但传统观点认为要正确实施是相当困难的。在这篇文章中,我以逐行实现的形式展示了该论文的“注释”版本。我重新排序并删除了原始论文中的某些部分,并在整个过程中添加了评论。本文档本身是一个工作笔记本,应该是一个完全可用的实现。总共有 400 行库代码,可以在 4 个 GPU 上每秒处理 27,000 个令牌。要继续学习,您首先需要安装。完整的笔记本也可以在。原创 2023-02-11 11:17:47 · 2552 阅读 · 12 评论 -
【Transformer】图解 Transformer
由于我们处理的是矩阵,我们可以将第二步到第六步压缩为一个公式来计算自注意力层的输出。矩阵形式的self-attention计算。原创 2023-02-10 13:49:09 · 1050 阅读 · 8 评论 -
【预训练语言模型】第 1 章:模型基础知识
文档分类、情感分析、聚类和文档摘要等 NLP 任务需要处理和理解文本数据。这些任务的实施取决于人工智能系统如何处理和理解数据。这样做的一种方法是使用一些统计方法,如词频-逆文档频率(TF-IDF)、计数向量等,将文本表示转换为数值形式,但这些方法不考虑句子的含义并且只处理句子中单词的出现。随着时间的推移,已经开发了几种语义方法,如解析树、上下文语法、本体等,但这些方法需要大量的人力来准备标记的训练数据。在过去的几年里,计算能力的广泛可用性使得使用基于神经网络的方法来完成这些任务成为可能。原创 2022-10-10 10:55:40 · 798 阅读 · 10 评论