论文背景
近年来,随着大规模模型的出现,预训练的语言模型发展迅速。然而,缺乏专门为中文设计的开源聊天模型,尤其是在中文金融领域,规模为数百亿。为了解决这一差距,我们引入了迄今为止最大的中文聊天模型 XuanYuan 2.0 (Jordan 2.0),建立在 BLOOM-176B 架构之上。此外,我们提出了一种新的训练方法,称为混合调整,以减轻灾难性遗忘。通过将通用域与特定领域的知识相结合并整合预训练和微调阶段,XuanYuan 2.0 能够在中文金融领域提供准确的和上下文适当的响应。
预训练模型的三种主要架构:
(1)以Bert为代表的编码器架构。
(2)以GPT为代表的解码器架构。
(3)以T5为代表的编码器-解码器架构。
每个架构都有其独特的特点和优势,迎合了不同的 NLP 要求。
此外,与通用域模型相比,特定领域的语言模型和聊天模型对数据分布和训练方法施加了更高的要求。特定领域的模型需要捕获特定领域的独特语言特征、术语和上下文以实现最佳性能。然而,仅在特定领域的数据上训练这些模型可能会导致灾难性的遗忘,其中模型会丢失以前从一般领域学到的知识,从而影响其整体性能。为了缓解这个问题,我们提出了一种新颖的训练方法——混合调整,它结合了预训练和微调的阶段。通过整合两个阶段,我们的方法保证了使用财务特定指令微调模型不会阻碍其在预训练期间获得的一般生成能力。因此,XuanYuan 2.0 可以有效地利用其通用域知识和特定领域的金融知识在中文金融领域提供准确的和上下文适当的响应。
方法论
为了缓解灾难性遗忘的问题,我们提出了一种新的特定领域的训练框架——混合调整。在训练阶段,它集成了先前拆分的预训练阶段和指令微调阶段。在数据领域,它整合了来自一般领域和金融领域的数据。如图 1 所示,与传统的两阶段特定领域训练不同,我们提出的混合微调将预训练数据(一般预训练、金融预训练)和指令数据(一般指令、金融指令)随机打乱为一个训练数据。所有的训练过程都是在一个阶段完成的。通过这种方式,该模型可以准确处理金融领域的指令,同时保留一般的对话能力。
对于无监督的预训练数据,我们从互联网上抓取它们并清理并过滤它们。对于指令调整数据,我们使用人工编写的种子指令通过 Self-Instruct收集一般数据,并利用金融领域的非结构化和结构化数据通过 Self-QA 收集特定领域的指令数据。(非结构化金融数据包括广泛的文本信息,例如财经新闻文章、市场报告、分析师评论和社交媒体讨论。结构化的金融数据包括公司信息等。这些来源为市场趋势、投资策略和经济情况提供了有价值的见解。)
结论
本文提出了最大的中文金融聊天模型,XuanYuan 2.0,以填补专门为中文金融领域设计的开源亿级聊天模型的差距。此外,我们提出了一种新的训练方法,称为混合调整,以减轻灾难性遗忘。通过将一般领域与特定领域的知识相结合,整合预训练和微调阶段,XuanYuan 2.0 实现了在中文金融领域提供精确和上下文相关响应的显着能力。