AAAI 2018: 基于强化学习的文本分类

该篇AAAI 2018论文介绍了如何利用强化学习(policy gradient)改进文本分类。通过Information Distilled LSTM (ID-LSTM) 和 Hierarchically Structured LSTM (HS-LSTM),模型能学习到更优的句子结构表示,从而提高分类准确率。策略网络(PNet)决定保留或删除单词,以及短语划分,分类网络(CNet)提供奖励进行策略优化。
摘要由CSDN通过智能技术生成

看这篇论文前,建议先了解一下policy gradient RL,就更很容易理解论文思想了。

论文:《Learning Structured Representation for Text Classification via Reinforcement Learning》

代码:http://coai.cs.tsinghua.edu.cn/publications/

一、论文原理

这篇论文在文本分类任务中,应用了policy gradient强化学习的方法,来得到更好的句子结构化表征(ID-LSTM model保留有用单词,删除无用的单词如"a","the"等;HS-LSTM model将整个序列划分为多个短语结构),从而得到更好的文本分类效果。

二、模型结构

模型分为三个部分:

策略网络(PNet)、结构化表示结构(两个LSTM Module)、分类网络(CNet).

这里的两个LSTM Module是分别训练的,PNet决定Information Distilled LSTM (ID-LSTM)中是否保留当前单词,action为{Retain, Delete};PNet决定Hierarchically Structured LSTM (HS-LSTM) 中word-level lstm当前单词是否是短语结束位置/短语中,action为{Inside, End},再将判断的短语输入phrase-level lstm得到序列结构化特征。 下面会详细介绍。

  • 策略网络(PNet)根据 结构化表示模型(LSTM Model) 中每一个step的输入和上一层隐层状态决定当前采取的action (即是否保留/删除该单词、该单词是否在短语中/结束处)。

  • 在完成一序列action后,结构化表示模型(LSTM Model) 输出最终的文本特征。

  • 分类网络(CNet)对输入的文本特征分类,根据分类结果对

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值