大模型系列文章,针对《Beyond One-Model-Fits-All: A Survey of Domain Specialization for Large Language Models》的翻译。
超越一个模型适合所有:大型语言模型领域专业化综述
摘要
大型语言模型(LLM)极大地推动了自然语言处理(NLP)领域的发展,为广泛的应用提供了非常有用的、与任务无关的基础。LLM作为一般任务解决者的巨大前景促使人们将其功能远远扩展到“聊天机器人”之外,并将其用作医疗保健、金融和教育等特定领域的领域专家和工具的助手,甚至替代者。然而,直接应用LLM来解决特定领域中的复杂问题会遇到许多障碍,这些障碍是由领域数据的异质性、领域知识的复杂性、领域目标的独特性和约束的多样性(例如,领域应用中的各种社会规范、文化一致性、宗教信仰和道德标准)造成的。为了填补这一空白,近年来对LLM的领域专业化进行了爆炸性的研究和实践,然而,这需要进行全面和系统的审查,以更好地总结和指导这一有前景的领域。在这篇综述论文中,首先,我们提出了一个系统的分类法,根据LLM的可访问性对LLM领域专业化技术进行分类,并总结了所有子类别的框架以及它们之间的关系和差异。我们还对可以从专门的LLM中受益的关键应用程序领域进行了全面的分类,讨论了它们的实际意义和公开挑战。此外,我们还对该领域的当前研究现状和未来趋势提供了见解。
1 引言
自然语言处理(NLP)和人工智能(AI)模型的演变经历了一个显著的轨迹,从20世纪50年代和60年代的基于规则的系统开始,到20世纪90年代过渡到统计模型,再到2010年代神经网络的出现。由于自注意和基于Transformer的神经网络架构的