智能扩充机器人的“标准问”库之Query生成

10 篇文章 2 订阅

我司开源了一个GPT2模型,进行Query生成。

代码模型见链接:https://github.com/YunwenTechnology/QueryGeneration

一、Query生成的目的及意义?

在问答系统任务(问答机器人)中,我们往往会人为地配置一些常用并且描述清晰的问题及其对应的回答,我们将这些配置好的问题称之为“标准问”。当用户进行提问时,常常将用户的问题与所有配置好的标准问进行相似度计算,找出与用户问题最相似的标准问,并返回其答案给用户,这样就完成了一次问答操作

但是人为配置“标准问”库是一个耗时耗力的过程,并且生成高质量而具有总结概括性质的问题会给运营人员带来极大的负担。如果我们可以自动生成一些Query,供运营人员去选择的话,无疑于会给运营人员减轻很大的负担。简单地来说,就是创造与选择的区别,选择比创造要简单地多

二、Query生成方法有哪些?

Query生成方法主要有两大类,一种是规则的方法,另一种就是模型的方法。而每种方法其实又包含两个方面。如果我们已经人为地配置过一些query了,但是量比较少时,可以根据已有的query去生成query。

规则的方法是比较简单的,但是生成的问题会比较单一。一般通过词典或NER技术,识别出已有query的关键词或重要词汇,然后将其中的关键词做替换或者通过模板将关键词套入,最终生成新的问题。如表1所示。

然而,规则方法的核心是规则的归纳与总结,这通常是比较麻烦地事情;往往需要人看过大量数据后(需要很多人力),才能构造出比较优秀的规则,但规则之间有时也会有冲突。

模型的方法一般是用过Seq2Seq模型,根据所给问题去生成新的问题。模型方法相较于规则方法来说,生成的问题会更多样化,陈述不会一成不变;并且会生成一些具有概述性质或者更加具体的问题,供运营人员的选择更多。如表2所示。

三、GPT2模型

目前,Seq2Seq模型有很多,包括LSTM、Transform、GPT、UniLM、GPT2、MASS等等。而GPT2模型在生成问题上表现优秀,因此使用GPT2模型训练了一个Query2Query的模型去扩充我们现有的“标准问”库。

GPT2_ML的项目开源了一个具有15亿参数的中文版的GPT2开源模型,我们在此模型基础上进行微调。

三军未动,粮草先行。模型未练,数据先行。我们的数据来自百度相似问句对,共有220多万相似问对。具体训练参数如表3所示。

问题生成的效果如表4所示。

具体测试代码及模型,见github。

cd scripts/
python3 interactive_conditional_samples.py -model_config_fn ../configs/mega.json -model_ckpt /iyunwen/lcong/model/model.ckpt-850000 -top_p 5.0 -eos_token 102 -min_len 7 -samples 5 -do_topk True

结果:


  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基于BP神经网络算法的智能扫地机器人程序可以通过以下方式进一步改进: 1. 数据增强:引入数据增强技术,通过对原始训练数据进行随机变换和扩充,可以增加模型的泛化能力,提升智能扫地机器人在不同环境下的性能。 2. 深层网络结构:使用更深的神经网络结构,如卷积神经网络(CNN)或循环神经网络(RNN),可以提高模型的表达能力和特征提取能力。这些深层网络结构可以更好地捕捉图像或序列数据中的空间和时间关系。 3. 正则化技术:引入正则化技术,如L1正则化或L2正则化,可以减少模型的过拟合现象,提高其在未见过的数据上的泛化能力。 4. 优化算法选择:尝试不同的优化算法,如Adam、SGD、RMSprop等,以找到更好的参数更新策略。不同的优化算法可能对不同的问题和数据集具有不同的效果。 5. 集成学习:使用集成学习方法,如Bagging或Boosting,将多个基础模型的预测结果进行组合,可以进一步提高模型的性能和鲁棒性。 6. 引入先验知识:根据智能扫地机器人的具体任务和环境,可以引入先验知识,例如地图信息、障碍物位置等,来辅助模型的学习和决策过程。 7. 超参数调优:对于BP神经网络算法,存在一些重要的超参数,如学习率、批次大小、隐藏层节点数等。通过使用交叉验证或网格搜索等方法,可以找到最优的超参数组合,提高模型性能。 综上所述,通过数据增强、深层网络结构、正则化技术、优化算法选择、集成学习、引入先验知识和超参数调优等方法,可以进一步改进基于BP神经网络算法的智能扫地机器人程序的性能和效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值