带你动手编程的强化学习著作，每行代码都是它的温柔！

博文视点

于 2020-04-13 09:51:21 发布

阅读量834

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/broadview2006/article/details/105482143

版权

如今，深度强化学习算法被认为是最有可能实现通用人工智能计算的方法。

由于深度强化学习算法融合了深度学习、统计、信息学、运筹学、概率论、优化等多个学科的内容，入门门槛高是事实。

虽然博文菌推荐过很多优秀的AI著作，但自己学起强化学习算法仍然是一团浆糊。看一眼读过无数遍的马尔可夫决策过程，像极了当年单词书上的 abandon 。叹口气，又瞅了瞅镜子中那张不太聪明的脸，陷入了沉思。

作为一个科技小编，其实我清楚我的问题出在哪里（不是脑子）。

就像学游泳，只学理论而不下水，永远学不会。

只懂原理而不进行编程训练，那永远也别想学会强化学习算法！

淦！道理说的头头是道，可如何动手，去哪动手？

问题就在这里。市面上大部分强化学习著作的重心用在了描述算法原理上，至于算法的实现，讲得并不多。所以才让很多像博文菌这样的新手，在一页页的苦读后仍然很难入门。

不要把强化学习当作仇敌，除了死磕，一定存在更温柔的学习方法！

温柔的方法它来了！

今天介绍的这本书是2017年横空出世的《深入浅出强化学习：原理入门》的姊妹篇 ——

《深入浅出强化学习：编程实战》

这是一本以编程为主题的书！本书的写作初衷就是：

通过编程实例帮助那些想要学习强化学习算法的同学更深入、更清楚地理解算法！

在学习过程中，我们可以根据书中的代码进行动手编程，并修改程序中的超参数，然后根据运行结果不断体会算法原理。慢慢会发现，过去一直纠结的难点在动手之后竟然迎刃而解了！

它的到来就是为了破解我们无法上手实践的困境！

四大维度完善你的技能水平

实战性强 以编程实战为主线，旨在帮助读者通过实战更清晰地理解算法并快速应用。

系统全面 在马尔可夫理论框架下，介绍了最基本的算法，涵盖了基于值函数的算法，直接策略搜索方法，基于模型的强化学习方法等。

前沿技术分析 剖析了AlphaZero强大技术背后的深度强化学习原理，并介绍了它在五子棋上的具体实现。

操作性强 读者可根据书中的代码直接上手，并通过修改程序中的超参数，亲自体会算法原理。

三位专家联手出击

本书由 郭宪、宋俊潇、方勇纯三位老师精心打造

郭宪，南开大学人工智能学院讲师，2016年1月获得工学博士学位，并到南开大学从事博士后研究工作，2018年7月任教于南开大学至今。

宋俊潇，香港科技大学博士，目前就职于启元世界，担任研究科学家，专注于决策智能相关算法的研究与开发。

方勇纯，南开大学人工智能学院院长、教授、博士生导师，国家杰出青年基金获得者（2013年），教育部长江学者特聘教授（2017年）。

清晰结构助力击碎入门障碍

本书首先介绍马尔可夫决策过程的理论框架，然后介绍基于动态规划的策略迭代算法和值迭代算法，在此基础上分3 篇介绍了目前强化学习算法中最基本的算法：

【第 1 篇】基于值函数的强化学习算法，介绍了基于两种策略评估方法的强化学习算法，以及如何将函数逼近的方法引入强化学习算法中。

【第 2 篇】直接策略搜索方法，介绍了基本的策略梯度方法、AC 方法、PPO 方法和DDPG 算法。

【第 3 篇】基于模型的强化学习方法，介绍了基于MPC 的方法、AlphaZero 算法基本原理及在五子棋上的具体实现细节。

更多科技资讯请见微信公众号：博文视点Broadview（微信号：bvbooks）

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。