
RL
一个处女座的程序猿
人工智能硕博生,目前兼职国内外多家头部人工智能公司的AI技术顾问。拥有十多项发明专利(6项)和软件著作权(9项),多个国家级证书(2个国三级、3个国四级),先后获得国内外“人工智能算法”竞赛(包括国家级、省市级等,一等奖5项、二等奖4项、三等奖2项)相关证书十多个,以上均以第一作者身份,并拥有省市校级个人荣誉证书十多项。正在撰写《人工智算法最新实战》一书,目前已37万字。
-
原创 RL之MAB:多臂老虎机Multi-Arm Bandit的简介、应用、经典案例之详细攻略
RL之MAB:多臂老虎机Multi-Arm Bandit的简介、应用、经典案例之详细攻略目录多臂老虎机Multi-Arm Bandit的简介1、微软亚洲研究院解释多臂老虎机—探索还是守成2、MAB与RL的内在联系3、多臂老虎机的重要进展3.1、1933年最初老虎机模型—解决随机双盲实验的序列决策模型3.2、Epsilon-greedy→老鼠找蛋糕的实验...2019-09-19 09:47:243125
0
-
原创 RL之SARSA:利用强化学习之SARSA实现走迷宫—训练智能体走到迷宫(复杂陷阱迷宫)的宝藏位置
RL之SARSA:利用强化学习之SARSA实现走迷宫—训练智能体走到迷宫(复杂陷阱迷宫)的宝藏位置目录输出结果设计思路实现代码测试记录全过程输出结果设计思路实现代码后期更新……测试记录全过程…… ...2018-10-22 11:46:509144
2
-
原创 RL之DQN:基于TF训练DQN模型玩“打砖块”游戏
RL之DQN:基于TF训练DQN模型玩“打砖块”游戏目录输出结果设计思路训练过程输出结果1、test012、test02设计思路训练过程后期更新……...2018-10-23 09:52:209918
1
-
原创 RL之PG:基于TF利用策略梯度算法玩Cartpole游戏实现智能得高分
RL之PG:基于TF利用策略梯度算法玩Cartpole游戏实现智能得高分目录输出结果设计思路测试过程输出结果视频观看地址:强化学习—基于TF利用策略梯度算法玩Cartpole游戏实现智能得高分设计思路测试过程Episode: 1 ~ 5 Average reward: 15.000000.Episode:...2018-10-23 16:34:198479
0
-
原创 RL之Q Learning:利用强化学习之Q Learning实现走迷宫—训练智能体走到迷宫(简单迷宫)的宝藏位置
RL之Q Learning:利用强化学习之Q Learning实现走迷宫—训练智能体走到迷宫(简单迷宫)的宝藏位置目录输出结果设计思路实现代码测试记录全过程输出结果设计思路实现代码from __future__ import print_functionimport numpy as npimport ...2018-10-21 20:49:3910693
0
-
原创 RL之Q Learning:利用强化学习之Q Learning实现走迷宫—训练智能体走到迷宫(复杂迷宫)的宝藏位置
RL之Q Learning:利用强化学习之Q Learning实现走迷宫—训练智能体走到迷宫(复杂迷宫)的宝藏位置目录输出结果设计思路实现代码测试记录全过程输出结果设计思路实现代码from __future__ import print_functionimport numpy as npi...2018-10-21 21:25:179627
0
-
原创 ML之RL:强化学习Reinforcement Learning的简介、应用、经典案例、学习资源之详细攻略
ML之RL:强化学习Reinforcement Learning的简介、应用、经典案例、学习资源之详细攻略目录强化学习的简介0、强化学习相关论文1、强化学习的常用算法1.1、策略学习1.2、Q-Learning2、强化学习重要进展强化学习的案例应用强化学习的学习资源1、Frameworks and Packages2、Reading...2018-01-10 17:27:2313844
0