李宏毅机器学习2022春季-第十二课和HW12

李宏毅2022课程视频全部以线上视频的形式给出(已经全部录好,你可以选择短时间全部学完),上课时间会直播讲解额外的内容(可以不听)和作业(建议一定要做),目前已更新到作业十二。

第十二课主要内容是Reinforcement Learning(RL, 强化学习),主要是通过actor和environment的互动,根据不同的reward来更新模型,相对于传统的supervised learning,主要区别是训练资料收集的环节,RL是边训练边收集资料,详细课程内容见课程视频。

  • 课程视频

    b站视频号机器学习手艺人

    https://www.bilibili.com/video/BV1Z34y1C7sj

  • Github:课堂和作业课件及基础代码

    https://github.com/yaoweizhang/LHY2022-SPRING

作业十二需要使用kaggle或者colab下载代码、训练数据集、模型等资料,文末也有助教代码和训练数据集的获得方式。

  • 作业任务:

    Lunar Lander(月球着陆),训练飞行器月球着陆,作业基于OpenAI的gym框架(只有linux系统可用),需要实现包括Policy Gradient, Actor-Critic等算法。

  • 提交地址(非选修生用不了)

    https://ml.ee.ntu.edu.tw/hw12/

    截止日期

    2022/06/10 23:59(北京时间),去冲榜吧。

  • 评分:学生通过改进代码提升着陆能力。

  • QQ交流群:156013866

作业十二助教代码和数据获得方式:

  1. 关注微信公众号 “机器学习手艺人” 

  2. 后台回复关键词:202212

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值