pytorch ray 出现 Windows fatal exception: access violation错误的解决方案(远程主机强迫关闭了一个现有的连接)

最新推荐文章于 2023-12-04 10:30:29 发布

星之所望

最新推荐文章于 2023-12-04 10:30:29 发布

阅读量2.6k

点赞数

分类专栏： Pytorch 强化学习文章标签： pytorch windows 深度学习

本文链接：https://blog.csdn.net/weixin_42769131/article/details/121813744

版权

强化学习同时被 2 个专栏收录

42 篇文章 19 订阅

订阅专栏

Pytorch

37 篇文章 4 订阅

订阅专栏

训练PPO算法，出现Windows fatal exception: access violation问题。PPO算法是一个多线程算法，为了加速训练，使用GPU和显存加速计算。该问题不能稳定复现。

为了节约现存，PPO的公共参数

储存在内存中，worker数据存储在显存中，然后可能数据交换有问题，会出现多线程错误，将公共参数同样存放在显存中，问题消失了。

原：

@ray.remote
class ParameterServer:
    def __init__(self):
        self.params = ActorCritic(n_actions=3, device='cpu')
        self.load_net()

    def get_params(self):
        return {k: v.cpu() for k, v in self.params.state_dict().items()}

现：

@ray.remote
class ParameterServer:
    def __init__(self):
        self.params = ActorCritic(n_actions=3, device='cuda:0')
        self.load_net()

    def get_params(self):
        return {k: v for k, v in self.params.state_dict().items()}

星之所望

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
pytorch ray 出现 Windows fatal exception: access violation错误的解决方案(远程主机强迫关闭了一个现有的连接)

训练PPO算法，出现Windows fatal exception: access violation问题。PPO算法是一个多线程算法，为了加速训练，使用GPU和显存加速计算。该问题不能稳定复现。为了节约现存，PPO的公共参数储存在内存中，worker数据存储在显存中，然后可能数据交换有问题，会出现多线程错误，将公共参数同样存放在显存中，问题消失了。原：@ray.remoteclass ParameterServer: def __init__(self): se
复制链接

扫一扫