DQN-TC搭建整理

卧语寒蝉

已于 2022-04-22 15:55:41 修改

阅读量322

点赞数

文章标签： nlp

于 2022-04-22 11:03:24 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46482145/article/details/124324224

版权

算法伪代码：

M：训练模型时遍历训练集的次数

N：训练集中类别的数量

s[t] = [ x[1] ,a[1],x[2],a[2],x[3],a[3],...,a[t-1], x[t] ]

当前的文本是当前episode的最后一个的时候r[j] = EG ，否则r[j] = 0 【EG：推文的期望增益】

N : 文本数量，G(t) ：文本的增益

具体流程：

1、使用单层LSTM层作为编码器，用于生成文本的向量表示

2、强化学习中使用三层架构的神经网络来近似估计Q值

2_1、第一层是一个单层的LSTM层，用于生成输入的文本序列的高层抽象表示。在该估计函数中，激活函数是sigmoid。输入：X = [x[1],x[2],...,x[m]]，隐藏层为 H = [h[1],h[2],...,h[m]]，输出： h[m]

2_2、第二层为全连接层&#

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DQN-TC搭建整理

算法伪代码：M：训练模型时遍历训练集的次数N：训练集中类别的数量s[t] = [ x[1] ,a[1],x[2],a[2],x[3],a[3],...,a[t-1], x[t] ]当前的文本是当前episode的最后一个的时候r[j]= EG ，否则r[j] = 0 【EG：推文的期望增益】N : 文本数量，G(t) ：文本的增益具体流程：1、使用单层LSTM层作为编码器，用于生成文本的向量表示2、强化学习中使用三层架构的神经网络来近似估计Q值...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。