强化学习理论与实践高效入门

知识概要

本文章内容为【百度飞桨深度学习学院系列课程-强化学习入门】的学习笔记整理与总结

强化学习(RL,Reinforcement Learning)起源于控制论,用于解决控制与决策问题,与监督学习、非监督学习并称现行“三大机器学习”算法。当下也有许多人在研究并采用一种被称作“半监督学习”的机器学习算法,但其本质上仍为两种监督学习的技术融合。

作为当今AI领域颇负盛名的DeepMind公司的“灵魂级”人物,强化学习鼻祖Richard S.Sutton大神在其闻名遐迩的《Reinforcement Learning: An Introduction(Second Edition)》一书中系统性整合梳理了强化学习当下的技术理论与思想。而百度飞浆团队所推出的该强化学习入门课程便是围绕着该书的理论框架所展开的,同时结合了其自主研发的强化学习框架库PARL,将RL问题的算法问题环境智能体建模三者得以更为有效的“解耦”,很大程度上解决了RL初学者理论学习的同时在进行必要实践上的困难,也在一定程度上为未来国内更多领域科研或业界人士采用RL进行问题建模与解决的落地应用降低了理论与实践门槛!

解决问题类型

强化学习原则上可以用于解决所有决策类(主要为序贯决策)问题,当下应用场景包括但不限于游戏(马里奥、Atari、Alpha Go、星际争霸、王者荣耀等)、机器人控制(机械臂、机器人、自动驾驶、四轴飞行器等)、用户交互(推荐、广告、NLP等)、交通(路径规划、交通灯、拥堵管理等)、资源调度(航空、电力、物流、带宽、功率等)、金融(量

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值