Bilibili开源发布轻量级 Index 系列语言模型：2.8T 训练数据，支持角色扮演

喜好儿网

于 2024-06-20 15:30:00 发布

阅读量1w

点赞数 40

文章标签：语言模型 Bilibili Index B站

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/heehelcom/article/details/139826777

版权

Bilibili首次发布 Index 系列模型中的轻量版本：Index-1.9B 系列

本次开源的 Index-1.9B系列包含以下模型：

Index-1.9Bbase:基座模型，具有 19 亿非词嵌入参数量，在 2.8T 中英文为主的语料上预训练，多个评测基准上与同级别模型比处于领先.

Index-1.9Bpure:基座模型的对照组，与 base 具有相同的参数和训练策略，不同之处在于我们严格过滤了该版本语料中所有指令相关的数据，

以此来验证指令对 benchmark 的影响

Index-1.9Bchat:基于 index-1.9B base 通过 SFT 和 DPO 对齐后的对话模型，我们发现由于预训练中引入了较多定向清洗对话类语料，聊天的趣味性明显更强

Index-1.9Bcharacter :在 SFT 和 DPO 的基础上引入了 RAG 来实现 fewshots 角色扮演定制

目前，我们已在 HuggingFace 和 ModelScope 上同步开源。期待听到你们的使用反馈！

开源网址，模型下载请到喜好儿网查看

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。