本篇将介绍如何使用actor实现简单的同步和异步参数服务器。主要通过参数的梯度优化实现其的优化更新。两个示例都使用一个参与者(actor)实现了参数服务器,但是可以将它们扩展为跨多个参与者拆分参数。
要运行应用程序,首先安装一些依赖项。
pip install tensorflow
具体代码在文末附录。
示例可以按如下方式运行。
# Run the asynchronous parameter server.运行异步参数服务器。 --num-workers=4是启动4个worker。
python ray/examples/parameter_server/async_parameter_server.py --num-workers=4
# Run the synchronous parameter server. 运行同步参数服务器。
python ray/examples/parameter_server/sync_parameter_server.py --num-workers=4
注意,这个例子使用了分布式参与者句柄,这仍然被认为是实验性的。
异步参数服务器
异步参数服务器的实现是通过一个actor,它有两个方法push
和pull
。
@ray.remote
class ParameterServer(object):
def __init__(self, keys, values):
values = [value.copy() for value in values]
self.weights = dict(zip(keys, values))
def push(self, keys, values):
for key, value in zip(keys, values):
self.weights[key] += value
def pull(self, keys):
return [self.weights[key] for key in keys]
然后,我们定义一个worker任务,它接受一个参数服务器作为参数并向其提交任务。代码的结构如下所示。
@ray.remote
def worker_task(ps):
while True:
# Get the latest weights from the parameter server.
weights = ray.get(ps.pull.remote(keys))
# Compute an update.
...
# Push the update to the parameter server.
ps.push.remote(keys, update)
最后,我们可以创建一个参数服务器,并启动如下训练。
ps = ParameterServer.remote(keys, initial_values)
worker_tasks = [worker_task.remote(ps) for _ in range(4)]