论文解读 -TongGu：专注于文言文的大模型

合合技术团队

已于 2024-09-10 14:18:29 修改

阅读量1.7k

点赞数 21

文章标签：深度学习人工智能机器学习

于 2024-09-09 15:24:50 首次发布

本文链接：https://blog.csdn.net/INTSIG/article/details/142059050

版权

一、简要介绍

文言文是通往中国古代丰富遗产和智慧的门户，但其复杂性给大多数没有专业知识的现代人构成了巨大的理解障碍。虽然大型语言模型（LLM）在自然语言处理（NLP）方面显示出了显著的能力，但它们在文言文理解（CCU）方面存在困难，特别是在对数据的要求和知识密集型的任务方面。为了应对这一困境，论文提出了TongGu（意为理解古代和现代），第一个专注于CCU的LLM。首先，论文构建了一个来自丰富的文言文语料库的两阶段指令调优数据集ACCN-INS，旨在解锁LLM的全部CCU潜力。其次，论文提出了冗余感知调优（RAT），以防止灾难性遗忘，使TongGu能够在保留其基础知识的同时获得新的能力。第三，论文提出了一种基于知识基础的CCU检索-增强生成（CCU-RAG）技术来减少幻觉。在24个不同的CCU任务上进行的广泛实验验证了TongGu的优越能力，强调了RAT和CCURAG的有效性。

二、背景

文言文是连接当代与中国古代智慧的重要桥梁，是对历史社会生活和文化实践的启示。然而，文言文和现代汉语之间的显著语言差异，包括词汇和句法，使得这一宝贵的遗产对非专家来说非常具有挑战性。

大型语言模型（LLMs）的最新进展在处理各种自然语言处理（NLP）任务方面显示出了显著的能力，促使研究人员探索他们在文言文理解（CCU）专业领域的能力。然而，现有的模型，包括通用的和初步的专注于CCU的LLM，经常面临需要大规模训练数据或广泛领域知识的任务。这种困境主要源于两个原因：缺乏专门的指令调优数据集，以及模型在处理没有足够的事实基础的知识密集型任务时产生幻觉的先天倾向。

为了解决这些挑战，论文提出了TongGu，一个开创性的垂直领域LLM，同时也是最熟练的CCU专家。论文首先设计一个自动pipeline来构建文言文文本的指令数据，从而产生ACCN-INS（古代汉语指令的缩写），这是第一个公开的针对不同CCU任务的CCU指令数据集。随后，TongGu分别进行了两阶段的指令调优，以优化数据需求和数据高效的任务。它首先使用大规模训练数据对需要数据需求的任务进行微调，如文言文到现代中文翻译，然后对数据高效任务进行微调，如使用小规模数据的标点符号。为了防止在两阶段微调过程中的灾难性遗忘，论文提出了冗余感知调优（RAT），一种新的稀疏微调(也叫参数高效微调（PEFT）)方法，该方法根据层冗余来识别和冻结当前任务的最关键的层。RAT在保留先验学习知识的同时，有效地为模型注入了新的能力，从而保证了TongGu的基础知识的稳定性和保留性。此外，论文提出了一种有效的CCU检索评估增强生成（CCU-RAG）方法，该方法显著减轻了知识密集型任务中的幻觉倾向，进一步提高了TongGu的表现。

综上所述，论文的贡献如下：论文开发了TongGu，一个开创性的垂直领域LLM，擅长管理广泛的CCU任务。

•论文设计了一个从文言文文本中自动生成指令数据的pipeline，并构建了ACCN-INS数据集，这是第一个公开的文言文指令数据。

•论文提出了冗余感知调优（RAT），一种稀疏微调方法，以缓解两阶段微调中的灾难性遗忘。

•为了减少知识密集型文言文任务中的幻觉，论文引入了一种特定任务的有效检索增强生成（RAG）方法。