根据莫烦的视频写的记录,本身视频就比较基础,自己也属于零基础吧。所以记录的很low
莫烦视频
莫烦Python: 这里有他的各种教程,包括强化学习,tensorflow, pandas, numpy等。也很基础,个人觉得比较适合零基础的人观看。
强化学习(Reinforcement learning)
不断的尝试到达目标,类似于人类上课,需要老师。但是这个老师不给对错(这就是监督学习了吧),只给行为打分,而强化学习的目的就是避免低分行为。尽可能的得到高分。最后的标签都是自己学来了,并不是人为打标签的。
方法分类
按照是否理解环境分类:
不理解环境 model-free RL
理解环境 model-based RL
这两者就是第二种多了一个建模的过程,能够用于model-free的方法都能够用于model-based方法。 .
基于概率的 policy-based最后输出都有可能,但是概率不一样 policy Gradient
基于价值的value-based最后输出的价值最高的,是确定的 Q-learning, Sarsa
对于连续的动作,基于价值的就无能为力,只能用基于概率的。这两个结合是Actor-Critic方法
回合更新,在结束后更新 policy gradient等
单步更新,在过程中一步一步更新,不用等待结束 Q-learning等。
在线学习 Sarsa Sarsa(lamda)
离线学习 Q -learning DQN
需要准备
python以及其中的Numpy, Pandas库
Tkinter,或者是openAI gym (搭建模拟环境的)后者更好,但是目前对win不太友好
tensorflow(pytorch应该也可) 强化学习和深度学习结合时需要搭建网络