![22747e7231b811220514d6cbfd98ded2.png](https://i-blog.csdnimg.cn/blog_migrate/ef08820f29297d8e99fb50642cf1b595.png)
看这篇论文前,建议先了解一下policy gradient RL,就更很容易理解论文思想了。
论文:《Learning Structured Representation for Text Classification via Reinforcement Learning》
代码:
清华大学人工智能coai.cs.tsinghua.edu.cn一、论文原理
这篇论文在文本分类任务中,应用了policy gradient强化学习的方法,来得到更好的句子结构化表征(ID-LSTM model保留有用单词,删除无用的单词如"a","the"等;HS-LSTM model将整个序列划分为多个短语结构),从而得到更好的文本分类效果。
二、模型结构
![f9207a8e1759b12e6412d61c08920904.png](https://i-blog.csdnimg.cn/blog_migrate/23f2c4741418d1e0cd6f7fd69645dc6e.jpeg)
模型分为三个部分:
策略网络(PNet)、结构化表示结构(两个LSTM Module)、分类网络(CNet).
这里的两个LSTM Module是分别训练的,PNet决定Information Distilled LSTM (ID-LSTM)中是否保留当前单词,action为{Retain, Delete};PNet决定Hierarchically Structured LSTM (HS-LSTM) 中word-level lstm当前单词是否是短语结束位置/短语中,action为{Inside, End},再将判断的短语输入phrase-level lstm得到序列结构化特征。
下面会详细介绍。
- 策略网络(PNet)根据 结构化表示模型(LSTM Model) 中每一个step的输入和上一层隐层状态决定当前采取