基于目前对RL这方面的了解,主要分为基于三个方面: value function, policy 以及 model
其中目前最广泛的为value function的思路,也就是所谓的q-learning,Deep Q Network 与深度神经网络的结合。
目前主要看了两篇DQN 在NLP 和Object Detection方面的两篇应用的文章深有感触
1. Improving Information Extraction by Acquiring External Evidence with Reinforcement Learning
2. Active Object Localization with Deep Reinforcement Learning
我的思考是,DNQ中每一条记录(s,a,r,s') 其实包含三个方面:
1. 如何定义state
2. 如何确定actions的范围
3. 如何定义reward的规则
例如在论文1中,例如rl去学习如何更好地从文章中的精确地提取entity的信息,其中最重要地是学习去提取和当前事件相同的其他表达方式。
1. state的定义: 也就是DQN的输入,在论文中论文的state由几个方面组成,包括当前entity的置信度,和扩充选择的entity的置信度,他们的matches以及content word的tf-idf。
2. action的定义:论文中有两种actions 也就有两个networks。 每个actions的选择范围是固定的。文中的两个actions:reconcile和 new entity selection(query),其中reconcile定义为只有四种,接受某个,接受所有,拒绝全部以及停止。 query则是利用其他方式定义好的k(常数)个模板。
3. reward的定义:计算一个文章中所有entity的acc(当前)-acc(之前),没有采用绝对值,所有这里存在着惩罚机制。
同样地,论文2也是巧妙地定义了这个方面。
目前,我还没有看过rl在语音识别方面应用的paper,如果您看过比较好的,可以给我推荐一下嘛。
之前尝试过让rl自动去学习语音识别的对齐问题,感觉如何定义action和reward,尤其是reward function存在着困难。目前对CTC这个概率思想理解地不是很深入,有待努力。