聊天机器人对话数据

原创 2017年02月05日 17:51:33

        使用深度学习算法做闲聊系统已经半年了,回过头发现,大部分时间都在寻找优质训练。虽然网上有别人分享的闲聊数据,比如使用现有机器人(小黄鸡、小冰等)对话获得的数据(个人非常怀疑 数据的可用性,因为这些机器人本身的回答方式是基于匹配的,如果其匹配出错,训练自己的模型时,直接影响到模型的准确性,再加上,自己的模型并不能保证十分优秀,在优化模型的时候又需要担忧数据本身的问题)。另外就是字幕数据,网上有人出售3kw+行的字幕数据,仔细研究后发现噪音特别多,当然最主要的是上下两句无法判定是否是对话。在对话方面的paper,领域的大牛一般是以Ubuntu的问答数据来做,但只限于Ubuntu这个特定的领域,无法满足我们想开发闲聊机器人的需求。

        上有报道,小冰刚出来的时候拥有2kw+问答对,同时每天有一定百分比的增长,而且声明其预料来自网络公共数据。应对开发闲聊系统的需求,经过一两个月的摸索,总算找到合适的闲聊数据,例子如下(数据形式有多种——只有单独的问、问和答,还有多轮问答,最多有十几轮,包含表情(为方便展示,[]内为表情)):

  • 中旅太黑了[鄙视]
  • 同鄙视中旅,[鄙视]

  • 中秋在打麻将啊!
  • 就这点出息

  • 为了家庭 你愿意牺牲些什么?
  • 把妹。
  • 你[汗]

  • 为了自己想要的生活,勇于放弃一些东西。
  • 你要放弃啥子
  • 放弃所有会阻碍我前进的东西
  • 嗯,是该这样
        考虑到数据收集的艰辛(一个月左右多个平台的技术攻克、并租了6台服务器爬取数据(已有数据 统计见下方),另外,为了训练w2v,爬取了某百科800w+数据、300g+小说、400w+新闻等),想把收集的数据售出(恕不告知数据来源),让更多的人来解决“深度学习做对话系统”这个难题,说是他是难题,因为太多东西要去解决。目前深度学习做对话系统,主流的核心算法是seq2seq,之后还有很多优化算法,如使用beam search解决前k个字符概率乘积最大、考虑低频回复的MMI,兼顾问题前后字符的信息——attention mechanism,解决连续多轮的问答HRED,同时使用reinforcement learning也能在一定程度上解决多轮问题。总的来说,这些优秀的算法在一定程度上确实解决了问题,不过你还是得有合适的数据(如多轮问答数据)才能测试、评估、改进等。所以想通过售卖数据方式,希望大家一起解决这个难题——毕竟智能对话是多么吸引人,而且未来一定是各大公司必争之地。如果对这方面的研究有浓厚的兴趣,欢迎大家通过邮件交流学习(3492562997@qq.com)

目前已有的数据统计(每天有20-30w增长):
单轮:500w+
多轮:600w+

数据特点:
1. 可能有表情——文字表情(统一用[]扩住)、符号表情(eg:\(^o^)/YES!)
2. 对话数据为短文本,字数平均长度在10以内
3. 极少数的对话是其它语言,eg:英语、日语、韩语等
4. 数据已去重

更多数据样例:http://blog.sina.com.cn/s/blog_16d74e01f0102x1ec.html
单轮定价: 100w组/510元
备注:
1. 多轮每百万组定价(平均轮数为4.39+):(数据平均轮数-1)*单轮定价
2.100w起售 
3. 购买时如果有能力证明自己是学生的,购买一律八折,证明方式:学生证或一卡通及身份证主页照片,承诺不保存照片
4. 对于数据仍有疑问的,可留言, 在下感激不尽
5. 如果大家想切实看到对话效果,可考虑买多轮数据(多轮数据已卖三套、单轮一套)
6. 有意购买,可联系客服qq:3492562997。恕不讨价




版权声明:本文为博主原创文章,未经博主允许不得转载。

Delphi7高级应用开发随书源码

  • 2003年04月30日 00:00
  • 676KB
  • 下载

聊天机器人文档(AIML)

PS:很多同学读完我下面写的东西,都来问问题,说什么什么不成功。我想是我写的东西不够深入,不够清晰吧!以后我会找时间把该原码在仔细理解一边,把问题解释清楚。然后对于同学们提出的问题,我在这里也统一的回...

Delphi7高级应用开发随书源码

  • 2003年04月30日 00:00
  • 676KB
  • 下载

自己动手做聊天机器人 十一-0字节存储海量语料资源 - SharEDITor - 关注大数据技术

基于语料做机器学习需要海量数据支撑,如何能不存一点数据获取海量数据呢?我们可以以互联网为强大的数据后盾,搜索引擎为我们提供了高效的数据获取来源,结构化的搜索结果展示为我们实现了天然的特征基础,唯一需要...

基于深度学习的智能问答

基于深度学习的智能问答 kevinliali 2016-08-03 11:07:15 浏览2965 评论2 发表于: 阿里人工智能&大数据 深度学习 人工智能 自动问答 deepQA 摘要: ...

Python中用encoding声明的文件编码和文件的实际编码之间的关系

声明的编码和实际的编码匹配的时候:声明为UTF-8编码,文件实际编码也的确是UTF-8(1)示例代码:#!/usr/bin/python # -*- coding: utf-8 -*- """ ---...

对话系统的历史(聊天机器人发展)

对话系统的思想也许自计算机科学领域产生以来就存在了。我们无从得知Charles Babbage在19世纪30年代发明分析机和差分机的时候是否已经思考过这个问题;但是我们可以明确地知道,Alan ...

语音助手、聊天机器人何时才能像真人一样跟我们对话?

语音助手、聊天机器人何时才能像真人一样跟我们对话? 详细请参考:http://www.sohu.com/a/151682111_354973 现在在硅谷,几乎每一家值得一提的科技公司都...

使聊天机器人的对话更有营养

本文结构: 模型效果 模型 模块细节 今天的论文是 《Topic Aware Neural Response Generation》https://arxiv.org/pdf/1606.08340.p...

使聊天机器人的对话更有营养

本文结构: 模型效果 模型 模块细节 今天的论文是 《Topic Aware Neural Response Generation》 https://arxiv.or...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:聊天机器人对话数据
举报原因:
原因补充:

(最多只允许输入30个字)