“东数西算”下的高效数据流通策略研究

本文研究了东数西算工程中的数据流通策略,通过深度强化学习算法来优化数据的冷热分级和传输,旨在平衡能耗、成本和时延。研究对比了随机算法和贪心算法,结果表明深度强化学习在系统性能上具有显著优势,尤其在时延、能耗和成本的长期回报上。
摘要由CSDN通过智能技术生成

目录

引言

1 系统分析

图1

2 系统模型

3 求解策略

3.1 随机算法

3.2 贪心算法

3.3 深度强化学习

图2

4 模拟仿真

图3

图4

图5

图6

图7

5 总结与展望


摘要

【目的】 东数西算场景下的数据流通策略需要综合考虑能耗、成本、时延等各类系统优化目标,本文采用深度强化学习算法实现高效的数据分级和流转策略。【方法】 首先对东数西算场景下的数据要素流通系统架构和关键业务逻辑进行分析,并基于数据分类分级、数据传输、数据服务等关键流程的控制因素,融合多类业务优化目标,构建系统优化的通用数学模型,最后通过深度强化学习实现问题求解和策略优化。【结果】 通过系统仿真,与多种基线算法进行对比,验证了本文方法在收敛性、系统长期收益、目标均衡等方面的优势。【局限】 本文中方法对相关系统进行了合理的简化建模,在生产中需要基于现有方法,结合实际系统进行策略分析和回报函数定义,以进一步提升方法的推广能力和应用效果。【结论】 东数西算等复杂场景下,综合考虑多种业务优化目标,并通过深度强化学习等算法对数据流通策略进行优化,能够在保障服务质量的基础上,有效提升系统自身性能。

关键词: 东数西算; 数据流通; 深度强化学习

引言

互联网、边缘计算等技术的快速发展,使得数据成为促进数字经济发展的重要因素。基于文本、图片、视频等海量数据,人工智能、大数据、大模型等技术得以蓬勃发展,并在金融、安防、娱乐等众多领域发挥重要作用。

海量数据处理需要以云数据中心、智算中心、超算中心等提供的巨大的存储和计算能力为基础。从区域位置上,我国当前面临着东西部数字经济、算力资源、绿能供给等不平衡问题。相比于西部地区,东部地区数字经济存在一定优势,与此同时,东部地区数字经济的发展与有限的算力供给和较高的能耗水平矛盾日益凸显。基于此,国家正式提出东数西算工程,充分发挥东部经济优势和西部能源优势等,以促进东西部协调发展,提升区域算力调度水平,加快推进数字基础设施建设[1]

东数西算工程需要将东部省份部分调用频率较低的冷数据流通到西部省份提供的存储资源池内,将调用频率较高的热数据存储在本地资源池内,并在业务发生时实时调用相关数据进行服务[2]。当前,产业界和学术界在智慧交通[3]、视频渲染[4]、跨资源池存储[4]、气象行业[5]等展开了广泛分析和验证。

从数据流通的角度,推进东数西算工程有利于推动实现数据要素的跨区域融通,解决东西部数据要素市场发展不均衡问题[6]。东数西算需要解决的关键问题主要包括:(1)东数西算场景下,尽管大多数情况下不涉及数据主体的变更,但存储位置和维护权限会发生变化。东部省份需要保证流通数据符合相关数据安全要求,并进行数据加解密等操作保证传输安全[7]。西部省份一方面需要保证存储、销毁等数据管理的安全性,另一方面需要保证数据服务过程中的安全性。(2)相比于本地化的数据处理,东数西算下的数据搬迁、安全保障、异地处理等,会导致时延、能耗、成本等变化,并且数据的冷热分级标准和安全标准会随着业务的动态调整而变化[7]。相关数据迁移的策略需要均衡多个系统指标进行实时优化,否则会导致业务服务质量的下降或能耗与成本的上升,与东数西算工程目标背道而驰。

在安全性方面,当前研究方向主要包括存储安全、传输安全以及流通安全等[8]。结合数据管理的分类分级策略[7],存储安全相关研究主要集中于访问控制、数据加密、数据校验以及备份策略等[9],传输安全主要集中于数据加密、身份认证、密钥管理等方面[10];在流通安全方面,隐私计算由于所具备的数据可用不可见的特性,成为解决数据流通安全问题的主流方法, 在金融、政务等场景中有广泛应用。隐私计算主要包括联邦学习、可信计算(TEE)等,其中可信计算当前依赖于硬件支持[11] ,联邦学习以密码学为基础[12]。当前隐私计算相关技术存在数据治理困难、计算效率低下、部署复杂等问题[12-13],在联邦学习方面,相关研究重点聚焦于模型压缩、计算策略优化等方面[14-15];在TEE方面,学术界主要聚焦于对其计算效率的性能分析以及为应用开发提供容器化环境支撑等[16-17]。论文[16]和论文[17]详细讨论了TEE环境下对应用的时延影响,结果表明,相比于REE环境,TEE下的计算时延损耗较小,而在内存访问方面可能导致较大的时延差异,在应用访问总数据量相同的情况下,内存访问与访问的数据范围、缓存空间等密切相关。

在数据流通策略方面,相关学者对边缘计算场景下的增强现实、元宇宙等数据密集型应用的数据分级、数据传输和数据缓存策略进行了广泛的研究[18-20]。其中,论文[18]基于用户访问频次等行为实现边缘计算环境下的热点数据缓存策略优化,论文[19]通过对边缘计算中的数据缓存、路由策略、计算卸载等的控制,实现了系统时延、吞吐率和资源利用率的最优化,论文[20]通过在线强化学习,对边缘节点的缓存分配策略进行动态优化以实现系统效能最优。相比之下,当前东数西算相关应用主要基于访问频次、存储时间等单一业务规则制定相关策略,需要进一步分析能耗、成本、时延、安全性等相关因子,进行灵活、综合的策略生成[21]

基于此,本文从数据的冷热标准定义角度分析东数西算下的数据流通策略控制问题。其主要挑战在于建立东数西算的系统模型以及构建综合时延、能耗、成本等多个维度的系统优化策略。本文主要贡献在于:基于东数西算的关键流程,系统分析其中涉及的能耗、成本、时延等关键业务指标;引入深度强化学习,对东数西算中的数据流通策略进行求解,实现对系统综合业务指标的最优化;基于仿真数据验证了本文方法的有效性,并对本文中方法展开总结和研究展望。

1 系统分析

如图1所示,本文将东数西算的关键流程划分为数据分类分级、数据传输以及数据服务三部分。

1


1   东数西算数据要素流通关键流程

Fig.1   Architecture of data element circulation under the “East-West Computing Resource Transfer” project

数据分类分级:如图中蓝色框图所示,东部省份需要根据数据安全标准体系确定能够传输到西部省份的数据,并且根据业务需求,定义冷热数据标准[2]。业务调用次数通常与数据存储时间有关,在数据存储周期一定的情况下,可以通过确定百分比阈值的形式,将存储时间较长的数据定义为冷数据,其余数据定义为热数据。

数据传输:如图中橙色框图所示,数据的冷热标准会随着业务的动态调整而变化,本文将数据传输看作双向流程,在数据分类分级标准调整使得冷数据体量变大时,东部省份首先需要进行数据加密,然后传输到西部,在西部进行加密存储,如图中蓝色流程;反之需要将部分数据回传到东部,将数据进行解密后进行存储,如图中橙色流程。

数据服务:如图中绿色框图所示,数据服务请求需要根据业务访问的数据位置实时下发到东部省份和西部省份,为了简化分析过程,本文将数据存储和销毁等数据管理和应用调用统一为数据服务过程。为了保证数据服务的安全性,西部省份通常采用加密形式进行数据处理,如可信执行[11]等,一般而言,对于安全性的要求会导致时延增大,因此导致西部省份的处理时延相对较大[12]

由于加解密、网络传输等会导致时延、能耗、成本的增加,数据分类分级、数据传输与数据服务通常为异步执行,即在多次数据服务后,根据访问的数据位置以及服务质量,调整数据分类分级标准,并进行数据传输。

由上述流程可见,东数西算过程中的时延主要包括数据传输时延和数据处理时延。能耗方面,尽管西部省份的处理能耗、存储能耗要小于东部,但系统能耗还需要考虑数据传输能耗,如果频繁地进行大量的东西部数据传输,数据应用能耗难以弥合数据传输能耗,导致系统整体能耗增高。成本方面与能耗相似,需要从传输和存储、调用的整体进行分析。由于数据服务过程中传输的指令和回传结果数据量相对较少,本文忽略该部分导致的时延、能耗、成本等因素。

作为东数西算任务发起方的东部省份,为了实现系统整体能耗、成本和服务时延的最优化,需要动态调整冷热数据的划分标准,以平衡数据传输和数据服务在能耗和成本中的矛盾。因此,本文将东数西算下数据流通策略定义为冷热数据的数据分类问题。

2 系统模型

东数西算场景下,设数据总量为TT,大多数业务场景下要求数据存储周期固定,因此可以近似地认为数据总量TT不变。首先按照存储时间由短至长对数据进行排序,并将数据按照百分比等分为NN段,即T={ Tp1,Tp2TpN}T=Tp1,Tp2…TpN

  • 20
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

宋罗世家技术屋

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值