![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
Facico
生命是闪耀的此刻,不是过程,就像芳香不需要道路一样。
展开
-
NLPGym - A toolkit for evaluating RL agents onNatural Language Processing Tasks
NLPGym - A toolkit for evaluating RL agents onNatural Language Processing Tasks没有什么新思想,就是建立了一个把NLP和RL结合的工具,RL用于1、序列标注(sequence tagging)RL用于解决被结构化的预测任务:如命名实体识别、词性标注2、文本总结(text summarization)RL的agent选择要被用来总结的句子3、QA(question answering)RL的a原创 2021-02-17 12:48:36 · 115 阅读 · 0 评论 -
Policy Gradient算法
Policy Gradient算法数学理论不像value-based的方法(Q learning, Sarsa),与其不同的是他要输出的不是action的value,而是具体的那一个action,这样policy gradient就跳过了value这个阶段value-based输出的不是连续值,然后再选择最大的actionpolicy gradient可以在一个连续分布上选取action这个方法在方反向传播的时候是没有误差的,不过它确实在做一种反向传播但是这个反向传播的目的是让这一次被原创 2020-09-20 16:41:15 · 338 阅读 · 0 评论 -
强化学习基础学习小记
强化学习简介强化学习是解决这样的一类问题:每一步不能及时的获得标签,也就是要求强制在线而且并不是执行操作后会马上获得结果,可能要等好多步才能获得结果所以强化学习的过程是不断的环境互动,以此来总结学习简单概念状态(states): 顾名思义动作(actions): 顾名思义奖励(rewards): 进入每个状态,能带来正面或负面的方案(policy): 每个状态所要采取的动作方案奖赏统计模式T步累积奖赏Q(k)=1T∑i=1TviQT(k)=1T((T−1)∗QT−1(原创 2020-09-18 14:48:41 · 210 阅读 · 0 评论 -
gym库学习小记
gym学习gym库是一个开发和比较强化学习算法的包,并提供可视化,非常的有趣gym.make调用智能体模型的库env = gym.make(‘CartPole-v0’) #调用小车倒立摆系统其他库如下`(Acrobot-v1),(AirRaid-ram-v0),(AirRaid-ram-v4),(AirRaid-ramDeterministic-v0),(AirRaid-ramDeterministic-v4),(AirRaid-ramNoFrameskip-v0),(A原创 2020-09-17 15:37:55 · 1170 阅读 · 0 评论