Transformer分类

最新推荐文章于 2024-07-24 17:12:18 发布

缺的不是资料，是学习的心

最新推荐文章于 2024-07-24 17:12:18 发布

阅读量268

点赞数 4

文章标签： transformer 分类深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mmdsl083/article/details/140628423

版权

Transformer目前分为三类

类型	定义	场景	样例
仅编码器的基础模型（Encoder-only Foundation Models）/自动编码器 (Autoencoding)。	在预训练的过程中，掩码语言模型会随机掩盖输入 token，并尝试预测被掩盖的 token。模型利用输入的双向表示来理解 token 的完整上下文，而不仅仅是序列中前面的 token。	仅编码器模型适合的业务场景是：利用编码器生成 embeddings 的语言任务，例如文本分类等。这一类的模型，对文本生成这种生成类型的任务不太有用。Embeddings 输出也适用于语义相似性搜索，这是一种超越简单关键词搜索的高级文档搜索算法。	BERT模型
仅解码器的基础模型（Decoder-only Foundation Models）/自回归模型（Autoregressive）	这一类模型，使用了单向因果语言模型 (CLM, causal language modelling) 进行预训练。CLM 只使用之前的 token 预测下一个token，其他所有 token 都被掩盖住。	这些模型是生成任务的标准模型，包括文本生成、问答等景点场景	Amazon Titan、GPT、Falcon 和 Llama等等
既使用了编码器，又使用了解码器的基础模型（Encoder-decoder Foundation Models）/序列到序列模型（seq2seq）	这类基础模型（例如：FLAN-T5）使用称为“连续多token掩盖”进行预训练。然后，解码器尝试重建掩盖的token序列。	序列到序列模型可以用于翻译、文本摘要等任务。	T5 和其微调后的FLAN-T5 是著名的编码器-解码器的基础模型，用于广泛的生成性语言任务。

疑问

根据应用场景来看，为啥现在一个模型就能实现问答、摘要、翻译等任务？

缺的不是资料，是学习的心

关注

4
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Transformer分类

Transformer目前分为三类。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。