强化学习学习记录 一

根据莫烦的视频写的记录,本身视频就比较基础,自己也属于零基础吧。所以记录的很low
莫烦视频
莫烦Python: 这里有他的各种教程,包括强化学习,tensorflow, pandas, numpy等。也很基础,个人觉得比较适合零基础的人观看。

强化学习(Reinforcement learning)

不断的尝试到达目标,类似于人类上课,需要老师。但是这个老师不给对错(这就是监督学习了吧),只给行为打分,而强化学习的目的就是避免低分行为。尽可能的得到高分。最后的标签都是自己学来了,并不是人为打标签的。

方法分类

按照是否理解环境分类:
不理解环境 model-free RL
理解环境 model-based RL
这两者就是第二种多了一个建模的过程,能够用于model-free的方法都能够用于model-based方法。 .

基于概率的 policy-based最后输出都有可能,但是概率不一样 policy Gradient
基于价值的value-based最后输出的价值最高的,是确定的 Q-learning, Sarsa
对于连续的动作,基于价值的就无能为力,只能用基于概率的。这两个结合是Actor-Critic方法

回合更新,在结束后更新 policy gradient等
单步更新,在过程中一步一步更新,不用等待结束 Q-learning等。

在线学习 Sarsa Sarsa(lamda)
离线学习 Q -learning DQN

需要准备

python以及其中的Numpy, Pandas库
Tkinter,或者是openAI gym (搭建模拟环境的)后者更好,但是目前对win不太友好
tensorflow(pytorch应该也可) 强化学习和深度学习结合时需要搭建网络

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值