百度强化学习训练营心得

参加百度强化学习训练营,体验快速学习经典算法和Parl框架,感受到强化学习虽复杂却潜力无限。训练营揭示了强化学习在游戏、专业领域的应用,尽管挑战重重,但随着前置知识普及,未来强化学习有望变得更为普及和易学。
摘要由CSDN通过智能技术生成

百度强化学习训练营心得

这次强化学习训练营,总讲课时间5小时,是一次强化学习的“快餐”。

在训练营中,快速学习了几种经典算法,通过代码补齐作业大概了解了Parl框架用法。范式化的代码结合Parl库简化了强化学习流程,使初学者也能体验一把炼丹的快感。

在创意赛选题过程中,发现强化学习并不像课程内容那样浅易。模仿学习、few-shot等概念在查资料过程中不断蹦出,猝不及防。

也许,这次学习,与其类比快餐,不如说是打开了螃蟹壳,大概看到了强化学习的解题路线、Parl框架下编程范式。螃蟹好吃却麻烦,强化学习大概也如此,每进一步的深挖都可能是艰辛的,随之而来的也会是更高阶的知识经验。那么,为什么强化学习的世界会是如此呢?

一方面,强化学习在生产生活中尚未开发出大量应用点,主流研究仍在模拟器、游戏环境中。另一方面,这种“无用之用”已经在一些专业领域开始融入产业实际,如:基于强化学习的锅炉燃烧控制系统已经被研发出来,基于强化学习的射频电路与天线设计已登载在arxiv上,rlschool中也推出了电梯控制等非常实际的模型。在传统机器学习、深度学习已走入寻常百姓家的当下,强化学习俨然成为学士们新的研究对象。

在这次训练营中,每次课讲完,我还要再看一遍回放,才能理解课程细节——这可能也是大部分强化学习新人的做法。可见,即使是强化学习的快餐,在当下也不是能一口就下肚的。也许,在不远的将来,强化学习也会变成跟现在的深度学习一样,同样的算法可以轻易就学会,甚至对新人也同样如此。这是因为老师把课程讲得更通俗了或相关库更完善了吗?大概不完全如此。

首先,来看看人工智

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值