2021-03-13 深度梯度压缩DGC

本文提出深度梯度压缩(DGC)技术,旨在降低分布式训练的通信带宽,尤其适用于移动设备。DGC通过动量校正、局部梯度修剪、动量因子掩蔽和热身训练,实现高达600倍的梯度压缩比,减少了ResNet-50和DeepSpeech模型的梯度大小,同时保持训练精度,有效解决了移动设备分布式训练的网络带宽问题。
摘要由CSDN通过智能技术生成

深度梯度压缩:降低分布式训练的通信带宽

文章地址:https://arxiv.org/pdf/1712.01887.pdf

本文针对移动设备分布式训练

AB:大规模分布式训练需要使用通信带宽,带宽限制了多节点训练的可伸缩性,并且需要昂贵的高带宽网络基础结构,在移动设备的分布式训练中,这会导致更高的延迟,以及间歇性的不良连接。

我们发现分布式SGD中99.9%的梯度交换是多余的,并提出了深度梯度压缩(DGC)以大大减少通信带宽。

DGC采用四种方法:动量校正,局部梯度修剪,动量因子掩蔽和热身训练。

在这些情况下,深度渐变压缩可实现从270x到600x的梯度压缩比,而不会降低精度,将ResNet-50的梯度大小从97MB减小到0.35MB,而DeepSpeech的梯度大小从488MB减小到0.74MB。这有利于移动设备的分布式训练。

 

IN:

在训练中,通过增加节点的数量并利用数据并行性可以显著减少在相同大小训练集上进行前向后的总计算时间,但是!梯度交换的成本很高。网络带宽成为了扩展分

### 回答1: 《华为数据湖治理中心 DGC - 数据治理方法论(2021).pdf》是一本介绍华为数据湖治理中心的数据治理方法论的资料。该资料主要包含了以下内容: 首先是对数据湖的介绍,数据湖是一个可以存储任何类型的数据,以及用于存储和管理海量数据的灵活存储解决方案。数据湖的特点是支持灵活的数据集成、可存储不同类型的数据、能够进行高效的数据分析等。 然后介绍了数据治理的概念和意义,指出对于一个企业来说,数据就像一条“黄金水道”,在数据治理方面的投入是至关重要的。数据治理是对数据进行全方位的管理,包括数据的收集、存储、清洗、整合、安全、共享等方面。 接着介绍了数据湖治理中心的概念和体系架构,数据湖治理中心的主要任务是规范和统一企业级数据,保证数据的质量、可信度和安全性。数据湖治理中心的架构分为四层:数据治理层、数据服务层、数据应用层和数据管理层,分别负责数据资产管理、数据资产服务、数据资产运营和数据资产治理等方面。 最后,讲解了数据治理方法论,数据治理需要遵循一定的方法论,如数据依据、数据定义、数据分类、数据标准化、数据管理流程、数据安全管理、数据共享管理等。通过建立完善的数据治理方法论,可以有效地提升数据质量、加强数据保护、促进数据共享,推动企业数字化转型的顺利实施。 ### 回答2: 华为数据湖治理中心 dgc - 数据治理方法论(2021).pdf 这份文档是华为公司发布的数据治理方法论指南,旨在向各级企业提供关于数据湖治理的建议和指导。在当今数字化时代,数据成为企业越来越重要的资产,华为数据湖治理中心提供了一种实用的方法来管理数据湖中存储的海量数据。 这份指南包括了数据治理的定义、数据湖的定义和架构、数据治理的原则和流程以及常见的数据湖管理问题和解决方案等方面。其中,数据湖的定义架构部分介绍了数据湖的基本组成和结构特点,让读者对数据湖有更加深入和全面的了解。在数据治理方面,该指南提供了七大原则,包括全面性、准确性、可靠性、实时性、一致性、保密性和可审计性。这些原则为企业提供了具有指导性的数据治理方法论。 此外,本文还介绍了数据湖的治理过程,包括数据一致性管理、元数据管理、数据分类与标准、数据安全和合规性管理等方面,以确保数据的质量和安全性,让企业能够更好地利用大数据,提高决策效力和业务价值。 总之,华为数据湖治理中心 dgc - 数据治理方法论(2021).pdf 提供了一种实用的方法来管理数据湖中海量的数据,为企业提供了关于数据湖治理的建议和指导,并且对于提高数据质量和安全性、提高决策效力和业务价值都具有重要的意义。 ### 回答3: 《华为数据湖治理中心 DGC - 数据治理方法论(2021)》是一本介绍数据治理方法论的指南,它主要针对数据湖治理中心的设计和实现进行了详细阐释。该指南从数据治理的概念入手,深入分析了数据治理的目的、数据治理的意义以及数据湖治理中心的重要性。在这个过程中,指南提供了许多有关数据治理的实用工具和技术,让读者可以更加全面地了解数据治理的方法与实践。 指南分为多个章节,每个章节都涉及一部分涵盖数据治理内容的主题,如数据管理、数据定义、数据质量管理和数据访问等。其中,数据管理部分介绍了数据湖治理中心的设计和实现、治理数据生命周期的核心任务、数据资产目录和数据管理解决方案等。数据定义部分则对数据的定义、分类、标签和元数据进行了详细的阐释,以便管理人员清晰地了解数据的各种特征和属性。数据质量管理部分关注数据的质量管控和数据的有效性和完整性,以确保数据湖中的数据是可靠的、完整的和透明的。数据访问部分则介绍了如何实现数据访问和资源共享,以及访问数据的最佳实践和策略。 总之,《华为数据湖治理中心 DGC - 数据治理方法论(2021)》是一本非常有价值的数据治理指南,它为数据湖治理中心的设计和实现提供了丰富的方法论和指导,帮助读者更好地理解数据治理的概念和实践。无论是数据管理人员还是技术人员,都可以从这本指南中获得知识和启示,并将其应用于自己的工作中,以提高工作效率和质量。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值