骆驼QA:基于陈丹琦CoQA数据集的中文阅读理解模型,可给定知识文本进行问答...

前言:骆驼(Luotuo)项目是由冷子昂@商汤科技,陈启源@华中师范大学以及李鲁鲁@商汤科技发起的中文大语言模型开源项目,包含了一系列语言模型,感兴趣的可以去github上了解下,非常棒。

进NLP群—>加入NLP交流群


知乎:Cheng Li
地址:https://zhuanlan.zhihu.com/p/624662198
项目:https://github.com/LC1332/Luotuo-QA

其实从之前的Paper Reading就可以知道,对于小于50B的模型,他的知识水平是要较弱的。

所以对于6B 7B这样级别的模型,如果希望进一步提升模型的能力,就像BingGPT或者很多论文中的一样,需要形成一套 搜索——问答的系统。骆驼团队之前发布的 骆驼-Embedding(LuotuoBERT) 模型[1],就是希望进一步提升中文的模糊搜索能力。而这次,我们希望对于后面一步,问答进行进一步的调优。

f4bc92dbd88298bbaafe0445dfa2f335.png

这次发布的骆驼QA模型,是在唐杰老师的GLM-6B的基础上,利用陈丹琦学姐发布的CoQA数据集进行了翻译,并在翻译和增广后的CoQA数据集上进行微调而得到的。是一个专注于中文阅读理解的问答模型。这次初步发布的版本为0.1版本,日后的升级计划见下文中的讨论。

280770842d5ff44193a5d1e74e2bba63.png

我们在这次的发布中提供了两个colab的脚本,一个是直接对模型进行测试,一个是支持Gradio交互界面的版本。打开后就可以进行测试。这里非常感谢项目的主要开发 Jansen 廖等同学付出的努力。

7ba2e2730a469576df6e56b735405717.png

为了训练这个中文的问答模型,我们增广并翻译了陈丹琦学姐在斯坦福参与的的CoQA数据集。

5c35c2d570dad12324aa62650a792ba0.png

因为CoQA原本的设计是为了给Chat机器人使用,里面是考虑了连续的问答和有很多带有指代的原问题。所以我们利用GPT,对每个问题进行了5次增广。给出了更为详细的问题的问法。见右图。同时我们准备逐步公开这些数据集,当然还要搭建一个数据表格申请的方式,可能在之后放出。

a10ecf40581dc93e94c846af91b1ee58.png

在给项目赞助人的开放测试中,我们发现了几个问题

  1. 由于CoQA在构建的时候,更多是去考虑容易比较、测评的问题。在问题的构造中,很少去出现怎么样(How)和为什么(Why)这样形式的问题。这一点在开放测试中就直接fail了。

00454a933bfd8d546e8c9a9f2bedb966.png
  1. 于文本中不覆盖的问题讨论,模型没有garding的能力,或者说模型不会回答文中其实没有提到。这个我觉得在增加数据训练完一个0.3版本的之后版本中,可以去考虑提升。

c3e1e6dea35239a03d75a94e9d286702.png
  1. 目前文本覆盖的领域太少,只有几千个story,之后的版本中,我们希望借助中文wiki和各种赞助人爸爸提供的自己希望的语料,利用GPT自动生成问答对的方式,提升到2万到3万的故事级别,再乘以5会出现10万到15万个问答组合,这样看起来会更多一些。

82cb2765185571441fb81d23e98176d8.png

可以用之前咒术宝典中记载的这个Anki卡片的方法,来增广问答的数据,这样会产生更多的数据。另外感觉数据多了的话,那个问题转化也不一定是完全必要的。(当然也可以增广完问答之后,再增广5个不同的问题)

骆驼QA有了初步的版本之后,我们就可以结合LuotuoBERT的搜索能力,去搭建一个Mini的BingGPT了。特别是可以针对1000个左右的私有化文档,做对应的检索和QA。

另外要提前感谢一下Hugging Face社区,已经联系到我们可以做有长期运行的Demo机器了。这个骆驼问答显然就是有意义的Demo了,我们之后会整理挂在Hugging Face的社区上。把我们的进展汇报给大家,给社区做一些微不足道的贡献。


所有的模型、测试代码、训练数据和训练代码,我们都会逐步清理和开源到我们的项目中,大家可以在我们的项目主页[2]中找到项目的所有信息,或者也可以直接去骆驼QA[3]的项目中进行查看。同时我们也在积极寻找项目的赞助以及训练算力的支持。如果您觉得我们的工作对您有帮助,拜托 到我们的Github项目主页给上star。如果没有github账号,也可以在知乎的文章直接点赞。谢谢大家!

进NLP群—>加入NLP交流群

参考资料

[1]

骆驼-Embedding: https://github.com/LC1332/Luotuo-Text-Embedding

[2]

Luotuo-Chinese-LLM: https://github.com/LC1332/Luotuo-Chinese-LLM

[3]

Luotuo-QA: https://github.com/LC1332/Luotuo-QA

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值