世界冠军带你从零实践-强化学习总结

世界冠军带你从零实践-强化学习总结

课程内容

这次的课程内容主要是强化学习PARL框架的使用,其中使用到的算法为DQN/DDPG两种算法,在做作业的时候前边几次作业基本就是根据老师的代码去运行的,也没有太仔细的看。第四次作业的时候遇到一些问题,我将1e-3到9e-3这九个学习率全部都试了一下,其中2e-3和3e-3的效果是非常不错的,尤其是3e-3,但是我第二次运行的时候效果并不是太理想,所以感觉这次的作业还是有一些运气的成分的。第五次作业也是这样的,看了科科老师的代码在aistudio中修改了修改,结果最高也才收敛到了6000多,后边在继续研究研究。

课程总结

这次的课程也是让我收获到很多的知识,给我的感觉就是一个孩子去慢慢长大的过程,或者说是一个新手慢慢变为大神的过程,非常的形象。其中如果训练不好的话可能一直都是一个新手,哈哈。当自己去写代码的时候,还是感觉到比较困难,无从下手。自己还有很长的路程要走。
这一次的课程马上就要结束了,时间很短但是收获却很多,赞科夫说过对所学知识内容的兴趣可能成为学习动机,深有感触,当你一件事情成为兴趣的时候,你的动力会自然而来!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值