![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 96
强化学习
大风车滴呀滴溜溜地转
为天地立心,为生民立命,为往圣继绝学,为万世开太平。
展开
-
从零开始Q-Learning,用强化学习教出租车接送乘客
设想一个训练宠物狗新技巧的场景:狗听不懂人类的语言,所以我们不能直接告诉它该怎么做。我们可以模拟一种情况(或提示),而狗会试图以许多不同的方式做出反应。如果狗的反应是我们想要的,就用零食奖励它们,那么下一次狗遇到同样的情况时,大概率会以更热情的方式执行类似的动作,期待更多的食物。这就像从积极的经历中学习“做什么”一样。同样,狗也会倾向于学习在面对负面经历时不该做什么。狗就是暴露在环境中的智能体(agent)。环境可以是客厅或草坪,随你。你和狗当前的情况就类似于一种状态。翻译 2022-08-22 23:00:00 · 2259 阅读 · 0 评论 -
论文精读:Generative Adversarial Imitation Learning(生成对抗模仿学习)
这篇论文是2016年由斯坦福大学研究团队提出的,两位作者,一位是Jonathan Ho,履历十分丰富,主要研究方向是无监督学习和强化学习,另一位是Stefano Ermon,他是斯坦福大学的副教授,主要研究方向是概率建模、生成学习和推理。因为我的毕业设计自动驾驶,模型学习的效果并没有达到预期,一是训练的时间成本很高,二是没有办法让模型学会遵守交通规则。后来在《动手学强化学习》这本书里看到了模仿学习,综合考量了一下现在的模仿学习算法,最后选择了这篇论文,也就是基于生成对抗网络模仿学习。.........原创 2022-06-21 21:49:30 · 4353 阅读 · 8 评论