自然语言处理与大模型领域关键论文整理
1. 词向量与词表示学习
-
[2013] Efficient Estimation of Word Representations in Vector Space
- 作者: Mikolov et al.
- 贡献: 提出了Word2Vec模型,包括CBOW和Skip-gram两种架构,开创了词向量表示的新时代。
- 原文链接: arXiv:1301.3781
- 整理链接: csdn
-
[2014] GloVe: Global Vectors for Word Representation
- 作者: Pennington et al.
- 贡献: 提出了GloVe模型,通过全局词共现矩阵学习词向量,结合了全局统计信息和局部上下文信息。
- 链接: ACL Anthology
- 整理链接: csdn
-
[2016] Enriching Word Vectors with Subword Information
2. 序列到序列模型与注意力机制
-
[2014] Sequence to Sequence Learning with Neural Networks
- 作者: Sutskever et al.
- 贡献: 提出了Seq2Seq模型,首次将神经网络应用于机器翻译任务,开启了端到端学习的新范式。
- 链接: Stanford CS224D
- 整理链接: csdn
-
[2015] Neural Machine Translation of Rare Words with Subword Units
- 作者: Sennrich et al.
- 贡献: 提出了基于子词单元的机器翻译方法,解决了稀有词翻译问题。
- 链接: arXiv:1508.07909
- 整理链接: csdn
-
[2017] Attention Is All You Need
- 作者: Vaswani et al.
- 贡献: 提出了Transformer模型,引入自注意力机制,彻底改变了NLP领域的模型架构,成为BERT、GPT等大模型的基础。
- 链接: NeurIPS 2017
- 整理链接: csdn
3. 预训练语言模型
-
[2018] Improving Language Understanding by Generative Pre-Training (GPT-1)
- 作者: OpenAI
- 贡献: 提出了GPT-1模型,首次展示了生成式预训练在NLP任务中的潜力。
- 链接: GPT-1 Paper
- 整理链接: csdn
-
[2018] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
- 作者: Devlin et al.
- 贡献: 提出了BERT模型,通过双向Transformer和掩码语言建模任务,显著提升了多项NLP任务的性能。
- 链接: ACL Anthology
- 整理链接: csdn
-
[2019] Language Models are Unsupervised Multitask Learners (GPT-2)
- 作者: OpenAI
- 贡献: 提出了GPT-2模型,展示了大规模预训练语言模型在零样本和少样本任务中的强大能力。
- 链接: ResearchHub
- 整理链接: csdn
-
[2020] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (T5)
4. 大模型与生成式AI
-
[2019] XLNet: Generalized Autoregressive Pretraining for Language Understanding
- 作者: Yang et al.
- 贡献: 提出了XLNet模型,结合了自回归和自编码的优点,进一步提升了预训练模型的性能。
- 链接: NeurIPS 2019
- 整理链接: csdn
-
[2020] ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
- 作者: Clark et al.
- 贡献: 提出了ELECTRA模型,通过替换检测任务进行预训练,提高了模型的效率和性能。
- 链接: arXiv:2003.10555
- 整理链接: csdn
-
[2022] ChatGPT: Large-Scale Generative Pre-training for Conversational Response Generation
- 作者: OpenAI
- 贡献: 提出了ChatGPT模型,展示了生成式预训练模型在对话任务中的强大能力。
- 链接: arXiv:1911.00536
- 整理链接: csdn
5. 多模态与领域特定模型
-
[2019] BioBERT: a pre-trained biomedical language representation model for biomedical text mining
- 作者: Lee et al.
- 贡献: 提出了BioBERT模型,专门用于生物医学领域的文本挖掘任务。
- 链接: ScienceOpen
- 整理链接: csdn
-
[2020] CLIP: Connecting Text and Images
- 作者: OpenAI
- 贡献: 提出了CLIP模型,通过对比学习实现了文本和图像的联合表示,推动了多模态研究的发展。
- 链接: OpenAI Blog
- 整理链接: null
-
[2021] Learning Transferable Visual Models From Natural Language Supervision
- 作者: OpenAI
- 链接: arXiv:2103.00020
- 整理链接: csdn
6. 大模型的理论与实践
-
[2022] Reformer: The Efficient Transformer
- 作者: Kitaev et al.
- 贡献: 提出了Reformer模型,通过局部敏感哈希和可逆层优化了Transformer的计算效率。
- 链接: arXiv:2001.04451
- 整理链接: csdn
-
[2023] GPT-4: Technical Report
- 作者: OpenAI
- 贡献: 提出了GPT-4模型,进一步扩展了生成式预训练模型的规模和应用范围。
- 链接: arXiv:2303.08774
- 整理链接: csdn
总结
以上论文涵盖了自然语言处理和大模型领域的关键进展,从词向量到预训练模型,再到多模态和生成式AI,展示了NLP技术的快速演进。如果需要更详细的论文列表或具体内容,可以参考相关资源。