强化学习
qq_42105426
这个作者很懒,什么都没留下…
展开
-
强化学习 Q—learning(python 代码)
前言:看了paper ,paper 上提到强化学习,所以打算写一个强化学习的专栏,本人比较水(真的水,你说看我的文章吓不吓人,刺不刺激),我看了几篇别人的博客越看越糊涂,所以写一篇方便后来人下面介绍两个概念: 1 .reward (当做出一个选择,环境给的回馈,这个是固定不变的,是先验信息) 2.Q矩阵(和随机过程的Q矩阵稍有不同,相当于机器人的大脑,通过算法训练出来,再拿...原创 2019-03-20 09:49:28 · 10358 阅读 · 5 评论 -
Multi-Armed bandit --------强化学习(含ucb python 代码)
前言:阅尽千章泪成江,看了N人写的博客,感觉很多人为让人看不懂而写的,我写的目的就是为了简单了解,入门很不深1.什么是多臂老虎机? 一个赌徒,要去摇老虎机,走进赌场一看,一排老虎机,外表一模一样,但是每个老虎机吐钱的概率可不一样,他不知道每个老虎机吐钱的概率分布是什么,那么每次该选择哪个老虎机可以做到最大化收益呢?这就是多臂赌博机问题(Multi-armed bandit probl...原创 2019-03-21 16:34:57 · 5270 阅读 · 1 评论