Transformer
文章平均质量分 89
NLP_wendi
这个作者很懒,什么都没留下…
展开
-
ChatGPT能否取代Google、Baidu,成为下一代搜索引擎?一文了解最近火出圈的ChatGPT
OpenAI这家公司又放大招了,继发布GPT、GPT2和GPT3模型后,本月初发布了ChatGPT模型【也被称为GPT3.5】,结合大家的测试效果来看,该模型效果确实很震撼,在人工智能圈子引起了不小的轰动。在AI发展相对处于低谷期的今天,如此震撼的模型发布出来,确实为该行业带来一阵暖风,本文就详细解读一下该模型。官方并没有公开ChatGPT的原始Paper,但提到 InstructGPT 是该模型的兄弟模型,因此,本文主要来解读InstructGPT模型。相关模型解读【GPT】Improving La原创 2022-12-08 13:03:37 · 3913 阅读 · 0 评论 -
XLNet: Generalized Autoregressive Pretraining for Language Understanding
与基于自回归语言建模(AR LM)的预训练语言建模方法相比,基于降噪自编码的预训练方法具有良好的双向上下文建模能力。然而,由于Bert需要 mask 一部分输入,忽略了被 mask 位置之间的依赖关系,因此出现预训练和微调效果的差异(pretrain-finetune discrepancy)。针对这些优缺点,我们提出了XLNet,这是一种广义的自原创 2022-10-10 17:37:39 · 594 阅读 · 0 评论 -
Informer--用于长序列时序预测【2021AAAI Best Paper】
许多真实世界的应用需要对长序列时间序列进行预测,如用电计划。长序列时间序列预测( Long sequence time-series forecasting LSTF)对模型的预测能力提出了很高的要求,即能够有效地捕捉输出和输入之间精确的长期依赖耦合( long-range dependency coupling)。最近的研究表明,Transformer 具有提高预测能力的潜力。原创 2022-09-25 12:31:23 · 1813 阅读 · 0 评论 -
【ViLT】 Vision-and-Language Transformer Without Convolution or Region Supervision -- 论文精读
视觉和语言预训练(VLP)提高了各种视觉和语言联合下游任务的表现。目前的VLP方法严重依赖于图像特征提取过程,其中大部分涉及到区域特征(如物体检测)和卷积架构(如ResNet)。虽然在文献中通常被忽略掉这一点,但我们发现它在(1)效率/速度方面存在问题,简单地提取输入特征需要比多模态交互步骤多得多的计算;(2)表达能力,因为它是视觉嵌入器及其预定义的视觉词汇的表达能力的上界。.....................原创 2022-08-25 20:36:06 · 936 阅读 · 0 评论 -
【Clip】Learning Transferable Visual Models From Natural Language Supervision -- 论文精读
计算机视觉目前的SOTA模型只能用来预测预先确定好的目标类别,这种受限的监督学习范式限制了模型的泛化性和应用范围,因为需要额外的标注数据来标识其他的类别。直接从图像的描述文本中学习是个很有潜力的方法,可以充分利用监督数据。我们研究证实了,预测描述文本属于哪一个图像的这种简单的预训练任务是个有效且易扩展的方法,从4亿图像文本对中从零训练,可以取得SOTA效果。预训练之后,简单构造的自然语言可以用来引导视觉模型去做物体的分类,且只用zero-shot的模式迁移到下游任务上。https。.............原创 2022-07-14 22:32:08 · 636 阅读 · 0 评论 -
Transformer模型对应的Tokenizer类型
各种Transformer模型对应的Tokenizer类型,原创 2022-06-29 13:27:38 · 967 阅读 · 0 评论 -
Transformer-XL 论文精读
文章链接:Transformer-XL: Attentive Language Models Beyond a Fixed-Length ContextTransformers在学习长序列依赖上有潜在优势,但也受限于语言模型序列长度固定的问题。我们提出了一个新颖的网络结构:Transformer-XL,在不打破时序关系的前提下可以突破固定长度的限制。它由片段级的循环机制和全新的位置编码框架构成。该架构不进可以学习文本的长依赖关系,还可以解决上下文碎片问题。最终,Transformer-XL可以学习相较RNN原创 2022-06-20 23:11:17 · 390 阅读 · 0 评论 -
【翻译】A Survey of Transformers -- Transformers综述
这篇文章翻译自复旦大学邱锡鹏团队的 Transformers 综述。Transformers在许多领域都取得了取得的成功,如:NLP、CV和语音处理,自然吸引了学术界和工业界的很大兴趣。到目前为止,已经有许多Transformers的变体(也就是 X-formers)被提出来,然而仍然缺乏对这些变体的系统的、全面的文献解读。这篇综述中,我们提出对X-formers 全面的评述。我们首先介绍了Vanilla Transformer,然后对X-formers 进行划分,接下来从结构、预训练和应用三个方面介绍了不原创 2022-06-16 11:43:44 · 479 阅读 · 0 评论 -
【AlphaCode】Competition-Level Code Generation with AlphaCode
Paper Link: Competition-Level Code Generation with AlphaCode自动生成Code系列文章解读:【Codex】Evaluating Large Language Models Trained on CodeAbstractProgramming is a powerful and ubiquitous problem-solving tool. Developing systems that can assist programmers or e原创 2022-04-26 22:13:06 · 1036 阅读 · 0 评论 -
【Codex】Evaluating Large Language Models Trained on Code
Paper Link: Evaluating Large Language Models Trained on Code自动生成Code系列文章解读:【AlphaCode】Competition-Level Code Generation with AlphaCodeAbstractWe introduce Codex, a GPT language model finetuned on publicly available code from GitHub,and study its Pytho原创 2022-04-26 22:09:16 · 2694 阅读 · 0 评论