python图灵测试_最前沿:基于GAN和RL的思想来训练对话生成,通过图灵测试可期!...

PS:本文分析略深,需要一定的RL和GAN的基础。

前两天,Stanford的NLP小组出了一篇神经网络对话生成的论文:

标题就是使用对抗学习来做神经对话生成。

这个idea非常的赞!在我看来是通往图灵测试的正确一步。

以前的对话生成,我们使用Seq2Seq的监督学习,其实也就是模仿学习。但是模仿学习的问题是神经网络的理解能力有限,训练样本有限,只能生成一定程度的对话。

那么,有没有可能让计算机真正理解对话的意思,然后自己学会对话呢?

有了深度增强学习,有了AlphaGo大家可以知道这是可能的。事实上这篇论文的作者Jiwei Li之前的一篇文章就是用深度增强学习来做对话生成。

但是使用深度增强学习最大的问题就是需要有reward。没有reward没法训练。

但是怎么定义一个对话的reward呢?好困难,有太多评价标准。但是有一个标准是绝对的,就是图灵测试的标准。只要这个对话看起来像人说的就行了。

这就不得不联系到了GAN生成对抗网络。把GAN中的分类器用来对对话做分类就行了。这样训练出来的分类器可以一定程度上判断计算机生成的对话与人的对话的差距。而这个 差距就是reward !

这篇文章可以说把DRL和GAN的思想很好的结合起来并应用在对话生成问题上,也取得了比较好的效果。相信在这个方法的基础上进一步发展,比如改进网络结构,将对话拓展到段落,更多的训练等等。 也许3-5年图灵测试就真正通过了,而这一次,是机器自己真正学会了交流!

PS:本文同步发于“智能单元”微信公众号,欢迎大家关注,第一时间获取通用人工智能原创资讯!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值