微软亚洲研究院论文解读:基于动态词表的对话生成研究(PPT+视频)

本文为 12 月 27 日,北京航空航天大学博士生、微软亚洲研究院实习生——吴俣在第 21 期 PhD Talk 中的直播分享实录。

本次 Talk 的主题是基于动态词表的对话生成研究。首先,吴俣博士带大家回顾了近几年来聊天机器人领域的发展,并仔细对比检索式聊天机器人和生成式聊天机器人的优点和缺点。


随后,他还以第一作者的身份,解读了北京航空航天大学和微软亚洲研究院于 AAAI 2018 发表的工作 Neural Response Generation with Dynamic Vocabularies。 


这篇论文致力于在对话生成时构建动态词典,在使 decoding 速度加快的同时,还能去除不相关词汇的干扰。在不影响效果的前提下,本文模型将在线生成速度提升了 40%。 


class="video_iframe" data-vidtype="2" allowfullscreen="" frameborder="0" data-ratio="1.588235294117647" data-w="432" data-src="http://v.qq.com/iframe/player.html?vid=p0528wsqjvb&width=654&height=367.875&auto=0" style="display: block; width: 654px !important; height: 367.875px !important;" width="654" height="367.875" data-vh="367.875" data-vw="654" src="http://v.qq.com/iframe/player.html?vid=p0528wsqjvb&width=654&height=367.875&auto=0"/>

△ Talk 实录回放


浅析对话系统



对话系统主要分为两类,一类是任务型,另一类是非任务型。任务型对话系统主要应用于企业客服、订票、天气查询等场景,非任务型驱动对话系统则是指以微软小冰为代表的聊天机器人形式。 


之所以强调这一点,是因为今年我在 ACL 发表了一篇论文,有同学发邮件问我为什么参考了论文和源代码,还是无法让聊天机器人帮忙订披萨。我只能说,目前聊天机器人实在种类繁多,有的机器人只负责闲聊,有的机器人可以帮你完成某些特定任务。 


本次 Talk 会更侧重于介绍闲聊机器人,也就是非任务驱动型对话系统。首先我想给大家推荐一篇关于聊天机器人的综述文章 — A Survey on Dialogue Systems: Recent Advances and New Frontiers


这篇文章来自京东数据科学团队,是一篇较为全面的对话系统综述,其中引用了 121 篇相关论文,并对论文进行了归类。不仅非常适合初学者,也能让大家对聊天机器人领域有一个更为全面的认识。



面向任务的对话系统主要分为知识库构造、自然语言理解、状态跟踪和策略选择。针对知识库构造,假设我们的使用场景为酒店预订,那首先我们需要构建一些和酒店相关的知识,比如酒店房型、报价以及酒店位置。


具备了这些基础知识之后,接下来就需要展开对话,通过自然语言理解去分辨问题类型(酒店类型、房间类型等)。确认好相关类型后,我们需要借助 policy 模块,让系统切换到下一个需要向用户确认的信息。更直观地说,我们需要循循善诱引导用户将右表信息填写完整。


聊天机器人类型



普遍来说,聊天机器人主要分为两类,我认为准确来说应该分为三类。


比较早期的研究基本属于第一类:基于模板的聊天机器人,它会定义一些规则,对你的话语进行分析得到某些实体,然后再将这些实体和已经定义好的规则去进行组合,从而给出回复。这类回复往往都是基于模板的,比如说填空。


除了聊天机器人,这种基于模板的文本形成方式还可以应用于很多其他领域,比如自动写稿机器人。


目前比较热门的聊天机器人应该是另外两类,一类是检索型,另一类则是生成型。检索型聊天机器人,主要是指从事先定义好的索引中进行搜索。这需要我们先从互联网上获取一些对话 pairs,然后基于这些数据构造一个搜索引擎,再根据文本相似度进行查找。


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
可以使用第三方库jieba和wordcloud来实现。 首先,需要将文本按照一定的规则进行分词,可以使用jieba库的cut方法进行分词。同时,可以使用jieba库提供的停词表对分词结果进行过滤,可以使用stop_words.txt文件提供的停词表。 接着,可以利用分词结果和停词表生成词云。可以使用wordcloud库的WordCloud类来生成词云。WordCloud类支持自定义字体、大小、颜色、形状等属性,可以根据需要进行设置。同时,可以指定某些词汇的颜色、大小等属性,以突出这些词汇在词云中的出现。 以下是大致代码示例: ```python import jieba from wordcloud import WordCloud # 读取停词表 stop_words = set() with open('stop_words.txt', encoding='utf-8') as f: for line in f: stop_words.add(line.strip()) # 读取文本 with open('text.txt', encoding='utf-8') as f: text = f.read() # 对文本进行分词和过滤 words = jieba.cut(text) filtered_words = [word for word in words if word not in stop_words] # 生成词云 wordcloud = WordCloud(font_path='font.ttf', stopwords=stop_words, width=800, height=800) wordcloud.generate(' '.join(filtered_words)) # 显示词云 import matplotlib.pyplot as plt plt.imshow(wordcloud) plt.axis('off') plt.show() ``` 其中,stop_words.txt为停词表文件,text.txt为待处理的文本文件,font.ttf为自定义字体文件,可以替换为其他字体文件。代码中使用了matplotlib库来显示词云,如果没有安装可以使用`pip install matplotlib`命令进行安装。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值