自2000-2024年的自然语言处理及大模型相关的18篇经典论文汇总

1. 词向量与词表示学习

  • [2013] Efficient Estimation of Word Representations in Vector Space

    • 作者: Mikolov et al.
    • 贡献: 提出了Word2Vec模型,包括CBOW和Skip-gram两种架构,开创了词向量表示的新时代。
    • 原文链接: arXiv:1301.3781
    • 整理链接: csdn
  • [2014] GloVe: Global Vectors for Word Representation

    • 作者: Pennington et al.
    • 贡献: 提出了GloVe模型,通过全局词共现矩阵学习词向量,结合了全局统计信息和局部上下文信息。
    • 链接: ACL Anthology
    • 整理链接: csdn
  • [2016] Enriching Word Vectors with Subword Information

    • 作者: Bojanowski et al.
    • 贡献: 提出了fastText模型,利用子词信息解决未登录词问题,提升了词向量的泛化能力。
    • 链接: TACL
    • 整理链接: csdn

2. 序列到序列模型与注意力机制

  • [2014] Sequence to Sequence Learning with Neural Networks

    • 作者: Sutskever et al.
    • 贡献: 提出了Seq2Seq模型,首次将神经网络应用于机器翻译任务,开启了端到端学习的新范式。
    • 链接: Stanford CS224D
    • 整理链接: csdn
  • [2015] Neural Machine Translation of Rare Words with Subword Units

    • 作者: Sennrich et al.
    • 贡献: 提出了基于子词单元的机器翻译方法,解决了稀有词翻译问题。
    • 链接: arXiv:1508.07909
    • 整理链接: csdn
  • [2017] Attention Is All You Need

    • 作者: Vaswani et al.
    • 贡献: 提出了Transformer模型,引入自注意力机制,彻底改变了NLP领域的模型架构,成为BERT、GPT等大模型的基础。
    • 链接: NeurIPS 2017
    • 整理链接: csdn

3. 预训练语言模型

  • [2018] Improving Language Understanding by Generative Pre-Training (GPT-1)

    • 作者: OpenAI
    • 贡献: 提出了GPT-1模型,首次展示了生成式预训练在NLP任务中的潜力。
    • 链接: GPT-1 Paper
    • 整理链接: csdn
  • [2018] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    • 作者: Devlin et al.
    • 贡献: 提出了BERT模型,通过双向Transformer和掩码语言建模任务,显著提升了多项NLP任务的性能。
    • 链接: ACL Anthology
    • 整理链接: csdn
  • [2019] Language Models are Unsupervised Multitask Learners (GPT-2)

    • 作者: OpenAI
    • 贡献: 提出了GPT-2模型,展示了大规模预训练语言模型在零样本和少样本任务中的强大能力。
    • 链接: ResearchHub
    • 整理链接: csdn
  • [2020] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (T5)

    • 作者: Raffel et al.
    • 贡献: 提出了T5模型,将所有NLP任务统一为文本到文本的格式,进一步推动了预训练模型的应用。
    • 链接: JMLR
    • 整理链接: csdn

4. 大模型与生成式AI

  • [2019] XLNet: Generalized Autoregressive Pretraining for Language Understanding

    • 作者: Yang et al.
    • 贡献: 提出了XLNet模型,结合了自回归和自编码的优点,进一步提升了预训练模型的性能。
    • 链接: NeurIPS 2019
    • 整理链接: csdn
  • [2020] ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators

    • 作者: Clark et al.
    • 贡献: 提出了ELECTRA模型,通过替换检测任务进行预训练,提高了模型的效率和性能。
    • 链接: arXiv:2003.10555
    • 整理链接: csdn
  • [2022] ChatGPT: Large-Scale Generative Pre-training for Conversational Response Generation

    • 作者: OpenAI
    • 贡献: 提出了ChatGPT模型,展示了生成式预训练模型在对话任务中的强大能力。
    • 链接: arXiv:1911.00536
    • 整理链接: csdn

5. 多模态与领域特定模型

  • [2019] BioBERT: a pre-trained biomedical language representation model for biomedical text mining

    • 作者: Lee et al.
    • 贡献: 提出了BioBERT模型,专门用于生物医学领域的文本挖掘任务。
    • 链接: ScienceOpen
    • 整理链接: csdn
  • [2020] CLIP: Connecting Text and Images

    • 作者: OpenAI
    • 贡献: 提出了CLIP模型,通过对比学习实现了文本和图像的联合表示,推动了多模态研究的发展。
    • 链接: OpenAI Blog
    • 整理链接: null
  • [2021] Learning Transferable Visual Models From Natural Language Supervision


6. 大模型的理论与实践

  • [2022] Reformer: The Efficient Transformer

    • 作者: Kitaev et al.
    • 贡献: 提出了Reformer模型,通过局部敏感哈希和可逆层优化了Transformer的计算效率。
    • 链接: arXiv:2001.04451
    • 整理链接: csdn
  • [2023] GPT-4: Technical Report

    • 作者: OpenAI
    • 贡献: 提出了GPT-4模型,进一步扩展了生成式预训练模型的规模和应用范围。
    • 链接: arXiv:2303.08774
    • 整理链接: csdn

总结

以上论文涵盖了自然语言处理和大模型领域的关键进展,从词向量到预训练模型,再到多模态和生成式AI,展示了NLP技术的快速演进。如果需要更详细的论文列表或具体内容,可以参考相关资源。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

代码骑士

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值