轩辕：首个千亿级中文金融对话模型

最新推荐文章于 2025-05-02 08:21:02 发布

coding进阶

最新推荐文章于 2025-05-02 08:21:02 发布

阅读量1k

点赞数

分类专栏： chatgpt 文章标签：金融人工智能深度学习语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/perfumekristy/article/details/130910862

版权

轩辕是基于BLOOM-176B并针对中文和金融领域优化的开源对话模型，拥有千亿级参数。它在金融领域表现出色，通过hybrid-tuning训练方法避免灾难性遗忘，同时保持了通用领域的知识和对话能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

目前开源的大语言模型或多或少存在以下痛点：

缺少专门针对中文进行优化过的的大语言模型。
支持中文的开源模型的参数规模偏小，没有超过千亿。比如清华和智谱AI的ChatGLM-6B目前只开源了6B参数模型，盘古alpha也只开源了13B的模型。
支持金融这个垂直领域的开源模型基本没有。前段时间Bloomberg发布的BloombergGPT是业界的一个尝试，效果不错，但是不开源。

轩辕(以下内容用XuanYuan表示)基于Bloom-176B开源模型，在该模型基础上，针对金融领域的数据做了pre-training和fine-tune，是国内首个开源的千亿级中文对话大模型，同时也是首个针对中文金融领域优化的千亿级开源对话大模型。

XuanYuan大模型

轩辕在BLOOM-176B的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调。

它不仅可以应对通用领域的问题，也可以解答与金融相关的各类问题，为用户提供准确、全面的金融信息和建议。

数据收集

训练数据集包含以下几个方面：

通用预训练数据+金融预训练数据：来源于互联网抓取的数据。
通用指令数据+金融指令数据：先人工构造种子指令数据(seed instruction data)，然后基于Self-Instruct (Wang et al., 2022)论文里的方法生成通用指令数据。再基于Self-QA (Zhang and Yang, 2023)里的方法对非结构化和结构化的金融数据生成大语言模型需要的金融指令数据。Self-Instruct和Self-QA的论文参考

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。