![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 93
上杉翔二
悠闲地不定期更新多模态、搜索推荐、基础技术、前沿追踪的翔二
展开
-
Instruction Tuning(FLAN、instructGPT、chatGPT)
首页最近被chatGPT刷屏,但翔二博主左看右看发现很多想法似乎都是一脉相通的,于是连夜从存档中找了一些文章尝试理一理它的理论路线。博主个人理解,它以更为embodied AI形式的指令作为输入,以训练/微调大规模的信息模型,并基于强化学习与真实世界做持续交互,已经很接近此处所提到的“数字超人”了。原创 2022-12-10 18:24:59 · 24464 阅读 · 0 评论 -
具身智能综述和应用(Embodied AI)
因此为了满足AI机器人能够像人类一样在真实世界中实践型学习,具身智能(Embodied AI)逐渐成为一个热门的讨论点,或许它就是通往通用人工智能的关键钥匙。具身的含义不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能,这意味着机器人应该像人类一样通过观察、移动、说话和与世界互动来学习。原创 2022-12-10 18:21:00 · 19431 阅读 · 3 评论 -
多代理强化学习MARL(MADDPG,Minimax-Q,Nash Q-Learning)
由于强化学习领域目前还有很多的问题,如数据利用率,收敛,调参玄学等,对于单个Agent的训练就已经很难了。但是在实际生活中单一代理所能做的事情还是太少了,而且按照群体的智慧,不考虑训练硬件和时长问题,使用多个agent同时进行学习,会不会有奇招呢?另外如果在需要multi-agent的场景下,如想要完成多人游戏的话,也必须要考虑到多代理的问题。博弈论(game theory)在单个agent...原创 2019-10-27 17:31:57 · 11440 阅读 · 10 评论 -
强化学习(Q-Learning,Sarsa)
Reinforcement Learning监督学习–>非监督学习–>强化学习。监督学习:拥有“标签”可监督算法不断调整模型,得到输入与输出的映射函数。非监督学习:无“标签”,通过分析数据本身进行建模,发掘底层信息和隐藏结构。但是1.标签需要花大量的代价进行收集,在有些情况如子任务的组合数特别巨大寻找监督项是不切实际的。2.如何更好的理解数据,学习到具体的映射而不仅仅是数据的底...原创 2019-03-25 18:34:16 · 62574 阅读 · 2 评论 -
强化学习(Double/Prioritised Replay/Dueling DQN)
Q_Learning和Sarsa中都是利用了Q表来记录Q值,小规模场景状态往往比较少,便可以方便的用表存储再查询更新,但很多现实问题状态和动作都很复杂,而且如果出现连续值的状态则需要等距离分割离散,存储量往往太大,比如像下围棋如果还用Q表来存状态是不可能的事情。那么如果不用Q表存取,怎么得到价值函数呢?近似表示那么就来拟合吧!即近似表示学习价值函数。v(S)≈v^(S,w)v(S) \app...原创 2019-03-25 20:52:24 · 4551 阅读 · 0 评论 -
强化学习(Policy Gradient,Actor Critic)
强化学习是通过奖惩的反馈来不断学习的,在Q-Learning,Sarsa和DQN中,都是学习到了价值函数或对价值函数的近似,然后根据价值来选择策略(如选择最大价值的动作),所以这一类也被称为Value Based Model。但是这种处理方式有几处瓶颈:处理连续动作效果差。对于高维度或连续状态空间,使用Value Based通过得到价值函数再制定策略,需要比较所有action的价值大小,此时选...原创 2019-03-26 17:32:50 · 6440 阅读 · 0 评论 -
强化学习(DDPG,AC3,DPPO)
通过把Policy Based 和Value Based结合起来的Actor Critic,解决了Value Based如Q-Learning的无法解决连续和高维度问题,也解决了Policy Based的效率低速度慢的问题。但是同样的,想DQN一样,在使用神经网络进行值估计的时候,神经网络的相关性都太强了,梯度更新相互依赖,导致网络将会学不到东西。有两种解决方法:DDPG和AC3。DDPGA...原创 2019-03-27 12:16:28 · 11356 阅读 · 20 评论 -
强化学习(Dyna-Q,Dyna2)
基于模型的强化学习(Model Based RL)Value Based --Policy Based --Model BasedValue Based学习价值来指导策略,Policy Based直接学习策略以收获最大价值,还有将两者融合的AC。但是在学习价值或策略都十分困难的时候(如某千变万化的围棋),学习模型可能更好,即睁开眼睛看世界,尝试理解所处的环境,通过完成对环境的基本理解来指导强化...原创 2019-03-28 20:48:57 · 14825 阅读 · 8 评论