![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
人工智能
文章平均质量分 59
mylife512
万般皆苦,只可自渡
展开
-
算法 From on-policy to off-policy
前面 policy gradient 的做法就是 on-policy,使用参数为 θ 的actor收集训练数据,一旦参数得到更新后,我们就必须重新收集数据,因为此时参数已经变化了,之前收集的 data 就不能用了,整个过程非常耗时。但这里需要解决一个问题,即两个不同参数的actor得到的训练数据的分布是不同的,如何将它们联系起来呢?从公式角度出发,假设前者actor采集的训练资料的分布为q,后者的分布为p,我们应该如何实现这两者之间的转化呢?这里就需要提到一种称为。原创 2023-05-09 10:18:02 · 87 阅读 · 0 评论 -
Actor-Critic算法
在 Actor-Critic 算法中,Critic 是评判模块(多采用深度神经网络方法),它会对动作的好坏评价,然后反馈给 Actor(多采用深度神经网络方法),让 Actor 更新策略。在 policy gradient 中讲解到的多种评估指标已经涵盖了下面要介绍的 Actor-Critic 的思想,梯度策略算法往往采用回合更新的模式,即每轮结束后才能进行更新。如某盘游戏,假如最后的结果是胜利了,那么可以认为其中的每一步都是好的,反之则认为其中的每一步都是不好的。原创 2023-05-09 09:42:04 · 93 阅读 · 0 评论 -
深度学习——A3C算法
A3C 通过创建多个 agent,在多个环境实例中并行且异步的执行和学习,有个潜在的好处是不那么依赖于 GPU 或大型分布式系统,实际上 A3C 可以跑在一个多核 CPU 上,而工程上的设计和优化也是原始paper的一个重点。从上图可以看出输出包含2个部分,value network 的部分可以用来作为连续动作值的输出,而 policy network 可以作为离散动作值的概率输出,因此能够同时解决前面提到的2类问题。原创 2023-05-06 18:12:43 · 840 阅读 · 0 评论 -
领域分类/识别方案
所以,原始数据不能直接拿来作为训练数据,必须要经过人工筛选和标注方可使用。将用户输入与预定义的领域进行匹配。原创 2023-05-06 18:02:49 · 653 阅读 · 0 评论