强化学习
王伟王胖胖
这个作者很懒,什么都没留下…
展开
-
Unity3D ML-Agent-0.8.1 学习一(基础教程)
Ml-Aagent是什么就不介绍啦,百度就好,至于为什么要写这个,主要是因为最近在做深度学习研究,学到了强化学习,而我本身又有游戏经验和背景,而Unity3D刚好也有机器学习插件,正好把这些结合起来,看看能不能在游戏里发挥下。所以最近都就开始研究这个,其实还有个大的想法,就是能不能用人工智能去重新定义游戏的开发,运营等环节,目前知道AI可以上色,可以作曲,可以写故事,可以生成动漫头像等等,这个系列的主题就是用AI去定义游戏开发中的角色AI,不用传统的硬编码,而用强化学习去训练,使得可以有更好的泛化能力,原创 2019-05-19 23:59:05 · 3323 阅读 · 13 评论 -
李宏毅机器学习系列-强化学习之稀疏奖励(Sparse Reward)
李宏毅机器学习系列-强化学习之Sparse Reward稀疏的奖励(Sparse Reward)人为设计的奖励(Reward Shaping)好奇心机制(Curiosity)课程学习(Curriculum Learning)逆向课程生成器(Reverse Curriculum Generation)阶层式强化学习(Hierarchical Reinforcement Learning)总结稀疏的...原创 2019-09-04 22:34:17 · 10898 阅读 · 0 评论 -
李宏毅机器学习系列-强化学习之Actor-Critic
李宏毅机器学习系列-强化学习之Actor-Critic回顾策略梯度回顾Q-LearningActor-CriticActor-Critic小贴士Asynchronous Advantage Actor-Critic (A3C)Pathwise Derivative Policy Gradient总结回顾策略梯度回顾下我们前面讲的基于策略的梯度是怎么样的,中间会有一项是优势函数,会有个从某个时刻...原创 2019-09-04 16:39:13 · 1121 阅读 · 0 评论 -
李宏毅机器学习系列-强化学习之Q-Learning小改进
李宏毅机器学习系列-强化学习之Q-Learning小改进Double DQNDueling DQNPrioritized ReplyMulti-stepNoisy NetDistributional Q-functionRainbow总结Double DQN我们在实验中发现Q的值是被高估的,比如下图,红色的曲线是DQN的估计值,直线是Q的DQN的真实值,很明显估计值比真实值高很多,然后我们又用...原创 2019-09-04 12:51:09 · 1420 阅读 · 0 评论 -
李宏毅机器学习系列-强化学习之Q-Learning
李宏毅机器学习系列-强化学习之Q-Learning评判家(Critic)怎么衡量$V^\pi(s)$蒙特卡洛法(MC)时序差分算法(TD)MC和TD对比另一种评判$Q^\pi(s,a)$Q-Learning目标网络的训练探索缓存(Replay Buffer)算法总结评判家(Critic)评判家基于价值的一种学习方式,我们前面说的是基于策略的。评判家在评判什么呢,他不想策略决定我们要用什么ac...原创 2019-09-03 22:57:36 · 1449 阅读 · 0 评论 -
李宏毅机器学习系列-强化学习之近端策略优化PPO
李宏毅机器学习系列-强化学习之近端策略优化策略梯度的另一个问题策略梯度的另一个问题上一篇深度强化学习介绍到,我们的奖励梯度是这个样子:这个就意味着,在同一场游戏里不同的sts_tst下,采取某个ata_tat的权重有一个相同的R(τn)R(\tau^n)R(τn),这显然是有问题的。比如如果某个R(τn)R(\tau^n)R(τn)好,并不意味着他里面的a都好,要提高出现的概率,相反R...原创 2019-09-03 13:07:45 · 2369 阅读 · 0 评论 -
李宏毅机器学习系列-深度强化学习介绍
李宏毅机器学习系列-深度强化学习介绍深度强化学习强化学习与监督学习的区别训练语音对话机器人更多的应用玩游戏的例子强化学习的难点:深度强化学习深度强化学习可以理解为深度学习和强化学习的结合体,有个大神说AI=RL+DL,就是这个意思,Deep Mind用这个技术玩游戏,下围棋,一时间引领了AI的潮流。强化学习先说说强化学习,简单来说就是你有一个智能体,他会观察环境,然后做出相应的行为,然后...原创 2019-09-02 11:22:23 · 889 阅读 · 0 评论 -
深度学习之感性理解-强化学习简介
深度学习之感性理解-强化学习简介基本介绍为什么不能用监督学习目前最多的应用强化学习基本结构-actor行动者总结基本介绍简单来说,就是让机器根据环境,动作和奖励,进行自主学习,来更好的完成目的。举个例子:比如王者荣耀,我们的目的是打钱,当你的英雄只有10血的时候(环境),面对野区的怪物,你有2种选择,一种是逃命(动作),一种就打到死(动作),如果你选择了逃命,没打到钱(奖励),回水池加满血...原创 2019-05-17 12:18:10 · 224 阅读 · 0 评论 -
Unity3D ML-Agent-0.8.1 学习七(例子源码分析1)
Unity3D ML-Agent-0.8.1 学习七(例子源码分析1))写的目的例子Basic3DBallGridWorld总结写的目的本篇想分享下看例子中的源码分析,其实也就是一些我理解之后的注释,一些思路,希望对你有帮助。例子Basic这个例子主要是训练方块去左右移动,获得最大奖励,左边奖励小,右边大,于是最后会让方块就往右边走,是一格格走的。主要源码分析:BasicAgent....原创 2019-05-25 21:44:52 · 1096 阅读 · 0 评论 -
Unity3D ML-Agent-0.8.1 学习六(视觉学习)
Unity3D ML-Agent-0.8.1 学习六(视觉学习)写的目的创建环境总结写的目的本篇想试试视觉训练的效果,感觉好像不是很好,不知道是我设置不对还是什么,大家可以自试试。创建环境首先还是创建新场景,新大脑,具体不在啰嗦了,同时创建一张RenderTexture图,见图:然后在场景中添加摄像机和显示摄像机看到的图相关设置如下:之后在代理脚本里也要添加渲染图,当然也可...原创 2019-05-21 13:55:01 · 786 阅读 · 4 评论 -
Unity3D ML-Agent-0.8.1 学习五(部分源码介绍)
Unity3D Ml-Agent-0.8.1 学习五(源码分析)写的目的AcademyBatcherBrainCommunicatorAgent总结写的目的本篇想从部分训练和通信的类的源码开始,探究ml-agent的训练运作流程。话不多说,我们从Academy.cs开始吧。Academy这个是干嘛的很多资料都有,我就说说他里面干了点什么吧。代码就不贴了,大家都能看到,就讲下基本的流程。A...原创 2019-05-20 22:38:25 · 641 阅读 · 0 评论 -
Unity3D ML-Agent-0.8.1 学习四(模仿学习)
Unity3D Ml-Agent-0.8.1 学习四(模仿学习)写的目的场景设置修改配置并训练总结写的目的本篇介绍模仿学习,即玩家边玩,代理边学习,主要分为在线学习和离线学习,在线就是跟着师傅一起学,离线就是看是师傅录制的资料学习,我们主要讲在线学习,就是玩家边玩,AI边学习,可以实时观察学习的效果,离线学习只是记录玩家信息,产生生成一个文件,命令行学习文件即可,不多做介绍。场景设置可以...原创 2019-05-20 13:48:02 · 1494 阅读 · 24 评论 -
Unity3D ML-Agent-0.8.1 学习三(多代理学习)
Unity3D Ml-Agent-0.8.1 学习三写的目的多代理设置创建目录总结写的目的本篇主要接着上一篇,介绍多代理训练,思路就是将训练的环境变成预制,然后在场景中多加几个预制,一起训练,效果确实比单个训练快多了,毕竟样本多了,加速了训练。注意多代理训练,代码里的一些位置,速度信息就需要设置成相对父类的坐标,不能设置成世界坐标,否则都挤一堆去了,这样各自在各自的训练区域里训练即可。多代...原创 2019-05-20 10:42:51 · 836 阅读 · 2 评论 -
Unity3D ML-Agent-0.8.1 学习二(单代理学习)
本篇主要讲述一个简单的例子,单个代理的训练,涉及到一点点代码,我尽可能的多讲点原理,少些点代码,也不讲公式,否则看到公式一般兴趣没了,先理解为主。原创 2019-05-19 23:59:57 · 1263 阅读 · 2 评论 -
李宏毅机器学习系列-强化学习之模仿学习
李宏毅机器学习系列-强化学习之模仿学习模仿学习模仿学习模仿学习就是根据演示来学习,很多时候我们的任务没办法定义奖励,但是我们可以收集很多的数据给机器去学习,方法一般有两种,一种叫行为复制,一种叫逆向强化学习:...原创 2019-09-05 22:08:38 · 1757 阅读 · 0 评论