聊天机器人模型技术发展方向
主流还是Seq2Seq + Attention
- GAN对抗生成网络
- DQN深度强化学习网络
- GNN图神经网络
SeqGAN模型
用对抗网络生成文本
SeqGAN是对抗思想与增强学习的碰撞
由上交和UCL的人提出来的,还是本科,艹
GAN的限制
GAN的设计要求生成器的输出是一个连续空间,否则D到G(z)的梯度无法指导G修正的方向。
由于这种限制,GAN虽然在图像生成应用中获得了巨大的成功,却很少用于离散空间的文本生成
真实数据加上G的生成数据来训练D。但是我们可以知道G的离散输出,让D很难回传一个梯度用来更新G,因此需要做一些改变,看上图(右),paper中将policy network当做G,已经存在的红色圆点称为现在的状态(state),要生成的下一个红色圆点称作动作(action),因为D需要对一个完整的序列评分,所以就是用MCTS(蒙特卡洛树搜索)将每一个动作的各种可能性补全,D对这些完整的序列产生reward,回传给G,通过增强学习更新G。这样就是用Reinforcement learning的方式,训练出一个可以产生下一个最优的action的生成网络。
实战 https://github.com/skyerhxx/SeqGAN
NLP自然语言处理(十) —— 聊天机器人发展方向 & SeqGAN模型
最新推荐文章于 2023-12-28 01:16:50 发布