![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Reinforcement Learning
文章平均质量分 82
今晚打佬虎
中国厨艺训练学院第105届辍学生,同时还是一名二手的人工智能表演艺术家!
展开
-
马尔科夫决策过程(MDP) : BlackJack (MC-Off Policy)
Black Jack情人,Off-Policy原创 2022-01-25 18:31:12 · 1461 阅读 · 0 评论 -
马尔科夫决策过程(MDP) : BlackJack (MC-On Policy)
Black Jack, blackjack情人,MDP, Monte carlo, on-policy原创 2022-01-17 19:12:27 · 990 阅读 · 0 评论 -
马尔科夫决策过程(MDP) : GridWord(DP)
马尔科夫决策过程,Gridword, DP方法原创 2022-01-17 18:19:46 · 2435 阅读 · 1 评论 -
马尔科夫决策过程(MDP) : BlackJack问题(MC-ES)
马尔可夫决策过程,Blackjack情人,蒙特卡洛ES原创 2022-01-15 16:07:35 · 5033 阅读 · 0 评论 -
智能体挑战赛 - “奥林匹克 跑步运动”
智能体挑战“奥林匹克 跑步运动”规则:在一个随机地图中,对战双方各控制一个有相同质量和半径的弹性小球智能体;智能体可以互相碰撞,也可以碰撞墙壁,但会损失一定的速度;智能体自身有能量,每步消耗的能量与施加的驱动力和位移成正比;智能体能量同时以固定速率恢复,如果能量衰减到零,智能体出现疲劳,导致不能加力;智能体的视野限定为自身朝向前方25*25的矩阵区域,在规定视野内智能体能够看见墙壁,终点线,对手和跑道方向辅助箭头。初始时智能体位于所在地图的起跑线位置,初始朝向与跑道方向平行;当有一个智能体原创 2021-11-24 11:12:41 · 237 阅读 · 0 评论 -
马尔科夫决策过程(MDP):赌徒问题
问题描述:一个赌徒玩一个游戏,输赢由抛硬币的结果来决定,每一局游戏开始,都必须拿出部分的赌资下注。如果硬币头朝上,他赌多少赢多少(double)。如果头朝下,就输掉赌注。当赌徒达到100美元的目标时,或者缺钱时,游戏结束。问题抽象问题可以看作一个离散的马尔可夫决策过程:sss : state,赌徒当前持有的赌资,s∈S={0,1,2,...99}s\in \mathcal{S}=\{0,1,2,...99\}s∈S={0,1,2,...99}aaa : action,赌徒每次下注的金额,a∈A=原创 2021-10-27 20:37:30 · 5202 阅读 · 1 评论 -
马尔科夫决策过程(MDP):汽车租赁问题
汽车租赁问题:杰克是一家汽车租赁公司的经理,他管理着两个汽车租赁点。每天都有一些人在不同的租赁点租车,每出租一辆杰克会得到200¥的奖励,汽车被归还后第二天才能被再次出租。为了尽可能满足广大客户的需求,同时也为了获得更多的现金奖励,杰克计划在两个租赁点之间进行灵活的资源调配,在夜间进行两个租赁点的车辆转移,以满足第二天的租赁需求,两地之间移动车辆的费用是40¥/辆,每次移动车辆的上限是5(辆),每个租赁点的容量上限是20,当一个租赁点容量达到上限后,车辆会归还到就近的其他租赁点。杰克是个大聪明,他很快就意原创 2021-06-30 23:14:28 · 1881 阅读 · 7 评论 -
Reinforcement Learning(001)
What’s Reinforcement Learning?Reinforcement Learning 源于一个古老的心理学理论: Applyling a reward immediately after the occurrence of a response increases its probability of reoccurring, while providing punish...原创 2018-05-13 09:28:45 · 931 阅读 · 0 评论