Real Distributed APEX

霍格沃兹测试开发学社

于 2022-09-26 09:36:21 发布

阅读量357

点赞数

分类专栏：自动化测试测试开发软件测试文章标签：面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Hogwartstester/article/details/127047721

版权

软件测试同时被 3 个专栏收录

424 篇文章 10 订阅

订阅专栏

379 篇文章 8 订阅

订阅专栏

自动化测试

358 篇文章 4 订阅

订阅专栏

Google DeepMind 开源的强化学习库tf2rl（https://github.com/keiohta/tf2rl）涵盖了几乎所有主流算法。其中off-policy算法主要是使用APEX作为分布式训练的算法和框架支撑。

但是APEX的框架仍然是单机版本的多explorer模式，无法扩展到跨机器的Real Distributed 模式，跨机器的目的是打破单一机器上的资源瓶颈，创造更多的Actor。

强化学习收敛速度的瓶颈主要是Actor产生样本的速率，openai的env里，由于是模拟环境，单actor能达到每秒上百个样本。公司中的项目几乎不可能达到这种速率，所以增加Actor的数量是提高收敛速度的重要手段，那么我们就需要实现跨机器的分布式强化学习。

APEX

APEX的框架结构比较简单，可以套用任何off-policy的算法，涵盖离散动作空间算法DQN (including DDQN, Prior. DQN, Duel. DQN, Distrib. DQN, Noisy DQN)，也包括处理连续动作空间的策略梯度算法，例如DDPG(including TD3, BiResDDPG)，SAC。

框架图：

代码框架图：

从代码框架中可以看出：

1.multiprocessing.Process启动所有角色的节点

2.样本通过multiprocessing的跨进程对象global_rb来修改，因此使用跨进程锁Lock

3.参数同步使用multiprocessing里的Queue通信，每个Actor分配一个独占的Queue

APEX_Distributed

了解了APEX的代码结构后，如何修改就变的简单了，我们只要用分布式系统的常用方法替换掉进程间通信的方式即可。可以使用的中间件，例如消息队列、数据库都可以。

360质量工程部采用的是redis的pubsub订阅消息队列以及数据结构，消息订阅松散式的结构可能会丢失数据（例如订阅早启动问题），但是对于长时间的运行影响很小。

其他分布式训练框架

阿里开源的EasyRL也是一个选择，但是考虑到更新和维护的及时程度，所以没有使用，其主要改进点是实现了基于tensorflow distributed的多Learner学习节点。

并且其中列出了与很多其他开源框架的对比，有兴趣可以参考https://github.com/alibaba/EasyRL

EasyRL的结构图：

2.多Learner的学习节点，提高并行学习的速度。

Real Distributed APEX也可以使用tensorflow的ParameterServerStrategy的模式，实现多Learner的并发学习。

结果预期

本文并没有列出具体的代码，后续可能会公开代码方案（其实并不复杂）

改进框架只是第一步，后续我们会继续探索使用强化学习实现类人的智能测试，期望有兴趣的同学一起加入进来！

霍格沃兹测试开发学社

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Real Distributed APEX

公司中的项目几乎不可能达到这种速率，所以增加Actor的数量是提高收敛速度的重要手段，那么我们就需要实现跨机器的分布式强化学习。但是APEX的框架仍然是单机版本的多explorer模式，无法扩展到跨机器的Real Distributed 模式，跨机器的目的是打破单一机器上的资源瓶颈，创造更多的Actor。阿里开源的EasyRL也是一个选择，但是考虑到更新和维护的及时程度，所以没有使用，其主要改进点是实现了基于tensorflow distributed的多Learner学习节点。
复制链接

扫一扫

专栏目录

霍格沃兹测试开发学社 CSDN认证博客专家

CSDN认证企业博客

1328: 原创

8257: 周排名

1043: 总排名

50万+: 访问

: 等级

2万+: 积分

4887: 粉丝

6294: 获赞

27: 评论

6164: 收藏

私信

关注

热门文章

分类专栏

最新评论

使用Python爬取豆瓣电影影评：从数据收集到情感分析
2301_81053683: 你好完整代码有嘛，可以有偿的
XPath攻略：从入门到精通，元素查找不再难
热爱生活的菇凉: 感谢分享，很好理解
使用Python捕获和处理异常日志
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh_CN/latest 使用原生 loggng封装，兼容性和替换性100%,大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 1 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、 nb_log 兼容包含loguru色彩模式,loguru只是nb_log的子集之一. 相比 loguru 有10胜。 pip install nb_log 。
干货 | 利用 pytest 玩转数据驱动测试框架
车载testing: 深度好文，pytest的文章千篇一律，唯有此篇是有趣的灵魂，这是我看过除官方文档外写的最有深度的关于pytest 结合yaml的文章了，赞！
用 Pytest+Appium+Allure 做 UI 自动化测试的那些事儿
CSDN-Ada助手: 软件工程问题：项目开发中后期，开发人员用工具一统计，乖乖，足足xx万行代码，xx千个存储过程，可是每到给客户演示时，却不时出现程序的各个功能相互不配合，不能自圆其说的尴尬场景，Dev leader很郁闷，想想自己可是没少加班啊，代码量也够多，可是问题究竟出在什么方面呢？

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。