关于DQN一些小想法

最新推荐文章于 2023-08-27 16:36:13 发布

yuwu94

最新推荐文章于 2023-08-27 16:36:13 发布

阅读量1.8k

点赞数

分类专栏： Reinforcement Learning 增强学习文章标签： rl dqn

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010642383/article/details/53783715

版权

Reinforcement Learning 增强学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

基于目前对RL这方面的了解，主要分为基于三个方面: value function， policy 以及 model

其中目前最广泛的为value function的思路，也就是所谓的q-learning，Deep Q Network 与深度神经网络的结合。

目前主要看了两篇DQN 在NLP 和Object Detection方面的两篇应用的文章深有感触

1. Improving Information Extraction by Acquiring External Evidence with Reinforcement Learning

2. Active Object Localization with Deep Reinforcement Learning

我的思考是，DNQ中每一条记录(s,a,r,s') 其实包含三个方面:

1. 如何定义state

2. 如何确定actions的范围

3. 如何定义reward的规则

例如在论文1中，例如rl去学习如何更好地从文章中的精确地提取entity的信息，其中最重要地是学习去提取和当前事件相同的其他表达方式。

1. state的定义: 也就是DQN的输入，在论文中论文的state由几个方面组成，包括当前entity的置信度，和扩充选择的entity的置信度，他们的matches以及content word的tf-idf。

2. action的定义：论文中有两种actions 也就有两个networks。每个actions的选择范围是固定的。文中的两个actions：reconcile和 new entity selection（query），其中reconcile定义为只有四种，接受某个，接受所有，拒绝全部以及停止。 query则是利用其他方式定义好的k（常数）个模板。

3. reward的定义：计算一个文章中所有entity的acc（当前）-acc（之前），没有采用绝对值，所有这里存在着惩罚机制。

同样地，论文2也是巧妙地定义了这个方面。

目前，我还没有看过rl在语音识别方面应用的paper，如果您看过比较好的，可以给我推荐一下嘛。

之前尝试过让rl自动去学习语音识别的对齐问题，感觉如何定义action和reward，尤其是reward function存在着困难。目前对CTC这个概率思想理解地不是很深入，有待努力。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。