![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Berkeley CS285(2020)
北槐
这个作者很懒,什么都没留下…
展开
-
Berkeley CS285(2020)-Lecture2
1.oto_tot与sts_tst的区别:state一般视作马尔科夫状态,而observation则result from state。使用state一般要求更为严格。一般来讲,observation更为低层,如图像;state则可以是抽象的更上一层,例如图像中的实体状态。“States are the true configuration of the system, and the observation is something results from that state which may原创 2021-08-01 19:34:40 · 193 阅读 · 0 评论 -
Berkeley CS285(2020)-Lecture1
1.现实世界是非结构化和难以预测的,但是DL能够帮助我们去处理。2.DRL中End-to-End训练能够减少感知和控制之间的误差扩大。3.本课程还会涉及逆强化学习(学习reward函数)、迁移学习和元学习(相关任务的知识迁移)等。4.如何确定reward其实很关键,很多事情人类一生其实只做一次。5.模仿学习与目标推断(goal inference)。...原创 2021-08-01 19:32:28 · 90 阅读 · 0 评论