新型硬件发展趋势及其对数据管理与分析的挑战(下)

3 研究挑战与展望


3.1 研究挑战


虽然新型硬件环境为数据管理与分析提供了新的设计维度,但是不论从个体的新型硬件发展前景抑或从整体的与现有体系的整合方式来看,都具有较大的不确定性。这些新型硬件能否给上层软件系统带来期望的性能收益取决于如何发掘新型硬件的性能提升空间以及准确界定硬件自身的局限性,洞察他们蕴含的假设条件以及对于系统设计平衡点的影响,这些都是数据管理与分析领域必须面对的挑战:


1) 首先,要在系统层面洞察新型存储器件和环境可能引入的新瓶颈:新型硬件及其环境对现有技术的影响是系统性的,在消除既有性能瓶颈的同时可能会引入新的性能瓶颈,需要站在更高层的系统上下文中对其影响进行审视。在新型处理器和加速器构建的异构计算环境下,虽然大规模并行能力的瓶颈得以缓解,但是传统的内存墙、冯·诺依曼体系结构瓶颈、功耗墙等问题在新的异构并行计算环境下甚至可能更加严重,而异构处理单元之间的通信延迟、有限的缓存容量、非一致存储访问代价都可能成为新的性能瓶颈;在新型非易失存储环境下,数据访问的I/O栈中面向磁盘的I/O瓶颈能够被消除,但是新型非易失I/O栈将显著地放大传统存储体系下通常被忽略的软件开销,重新设计软件栈以减少其开销比例成为比以往更重要的设计原则;在高性能网络体系中,虽然网络I/O延迟不再是系统设计时的主要瓶颈,但处理器缓存和本地内存的利用效率则变得更为重要。


2) 其次,新型硬件环境下算法和数据结构的设计思路需要改变:将传统算法和数据结构进行直接迁移或部分调优的方式无法充分挖掘新型硬件及环境的特性。在处理器层面上,适合x86架构处理器的数据结构及以cache为中心的算法设计并不能与以计算为中心的众核协处理器硬件特性相匹配,很多数据库成熟的查询处理技术在众核处理器平台上面临优化技术失效的风险,而且数据库软件长期以来以串行及小规模并行处理为主的程序设计思想,使得传统的查询处理算法难以很好地转换为大规模并行处理模式;在存储层面上,虽然新型非易失存储具有内外存双重优势,但是现阶段非易失存储器仍然存在 I/O读写性能不对称、读写功耗不对称、写耐受性差等特征,这些特征与以往算法和数据结构对于底层存储环境的基本设计假设具有显著差异,因此传统的以优化低速I/O为主要目标的磁盘访问技术、基于块访问的闪存访问技术、读写对称的内存访问技术虽然能够提供很好的借鉴作用,但是都无法在非易失存储环境下获得理想的效果;在网络层面上,由于RDMA集群环境既不是简单的消息传递架构也不是共享内存架构而是一种新型的混合式架构,因此不能将非一致内存访问架构下的技术直接应用到RDMA集群环境中。


3) 再者,新型硬件及环境对数据管理与分析技术的影响是全面、深度且交叉的:新型硬件环境所具有的新特征不能通过简单的对数据管理软件的既有功能进行裁剪来适配新的硬件环境。在新型处理器和加速器构建的异构计算环境下,并行处理能力获得极大的提升,但是更加丰富的硬件上下文也给数据管理与分析技术在保持高吞吐性能和维护数据一致性等需求上带来了更严峻的挑战;新型存储器的非易失性对日志技术的影响将根本性地改变事务关键路径的长度和执行代价,事务提交时间的减少会进一步加剧锁竞争,进而影响整个系统的并发能力和吞吐性能;低延迟高带宽的高性能网络会改变系统对于分布式事务难以扩展的基本假设以及分布式算法设计时面向最小化网络延迟的优化目标,多核架构下的缓存利用成为新的优化重点;此外,部分既有的数据管理部件本身具有复合型的功能,新型硬件对其影响也具有较强的关联性。例如既有的缓冲区不但用于缓解整个系统的I/O瓶颈,也是减少故障恢复机制开销的重要环节;更加复杂的是,新型硬件与环境之间也存在相互的交叉影响,例如高性能处理器的乱序指令执行技术会导致缓存数据无法按应用逻辑次序存取和执行,如果用单一的NVM简化传统存储层级,就必须要解决NVM上数据的有序化问题。


4) 最后,软硬件的协同设计和协调发展是新型硬件环境下数据管理与分析技术发展的必然途径:新硬件技术有其固有的优势和不足,并不能完全取代原有的硬件体系结构和设备,在相当长的时间内必然是传统硬件与新硬件并存的格局,在提供多样化的硬件选择的同时也导致系统设计更加复杂,优化技术更加不透明,系统整体性能调优难度增加等问题。在异构计算环境下,采用co-processor还是co-placement实现定制化的数据处理加速对系统架构和技术设计具有显著差异,更加严重的是由于并行编程的门槛越来越高,软硬件之间的鸿沟也越来越大,数据管理与分析软件技术的发展滞后于硬件技术的发展,在很多实际应用中,硬件的实际利用率远低于性能上限[129];而新型存储器件具有显著的差异化和多样化,如何利用新型非易失存储器构成非易失存储环境具有极大的灵活性和不确定性,构成成分是单纯还是混合,构成地位是对等还是层次都存在可能性,未定型的构成体系也给上层数据管理与分析技术带来了极大的挑战和研究。在高性能网络体系下,虽然InfiniBand从设计之初就考虑了RDMA,但传统的以太网也提出了基于RDMA的解决方案,最终哪种方案能形成完整的产业生态目前也无法给出确切的答案,因此更需要尽早开展前沿性研究,探索适合高性能网络环境的数据管理新架构。


3.2 研究展望


从数据管理与分析软件的发展历史来看,近半个世纪以来,作为最主要的数据管理软件,数据库从磁盘数据库闪存数据库内存数据库的发展轨迹充分反映出数据管理软件随底层存储介质一致变化的明显趋势。相似的,Shore-MT、MapD等系统的出现也反映出数据管理与分析技术随处理器共同演化的必要性。由高性能处理器和硬件加速器、新型非易失存储器、高速互联设备催生的异构计算架构、混合存储环境和高性能互联网络等新型硬件环境,必将改变传统的数据管理与分析系统的底层载体支撑,为数据管理与分析系统和关键技术带来重大的发展机遇,未来的研究可以从以下几个方面着手展开:


1)轻耦合的系统架构与协同设计策略:新型硬件构建的计算、存储以及网络环境具有异构性、多样性和混合性,不同的环境构成对上层数据管理系统架构的设计具有显著影响。如何将新型硬件无缝化地融入数据管理栈是数据管理技术能够有效利用新型硬件能力的重要基础性研究问题。为兼容多样性的硬件环境以及减少与特定硬件高耦合优化技术的失效风险,必须对异质、异构、混合的硬件环境进行有效的抽象和虚拟化。抽象化技术可以提取硬件共有的特征,在确保硬件感知的同时减少低级的过度耦合,为上层技术提供灵活的定制化和服务化的支持;同时,数据处理中不同操作的执行代价以及相互的比例关系在新硬件环境下必然发生变化,系统的瓶颈也在发生迁移,传统软件栈中以往可以忽略不计的开销会被显著的放大。因此,需要在此基础上发现并优化新的性能瓶颈,重新设计合理的软件栈,降低新型硬件环境下的软件开销;此外,新型硬件环境具有的低延迟、高容量、高带宽、高速读写等显著优势为整合OLTP与OLAP系统功能,实现融合的OLTAP系统架构设计带来了新的发展机遇,有必要在新硬件环境下探索面向混合应用负载的融合支持技术;


2)支持混合异构硬件环境的存储与索引管理技术:新型非易失存储器由于兼具内外存双重能力,模糊了原有存储之间清晰的边界,也为新型非易失存储环境的构成和数据存储方式提供了相当大的自由度,同时配合高效的索引技术以及加速器的优化,能够为加速上层数据处理提供有力的保证。虽然,新型非易失存储环境的高速I/O能力为提高数据访问性能带来了机遇,但是,NVM仅在器件层保证了数据的非易失性,系统层面的缓存机制还可能会引入不一致性的问题,因此未来需要从架构、策略、实现等不同层面研究协同存储技术;此外,作为专用加速硬件,FPGA在加速数据处理方面有其特有的优势,特别是结合非易失存储的特征可以进一步提高其对于数据处理的效率,因此,数据存储引擎的优化与重构技术以及FPGA存储侧的数据访存加速及数据过滤技术,能有效的完成对原始数据的部分预处理工作,减少实际所需传输的数据量,进而缓解大规模数据处理时数据访问的瓶颈;再者,NVM非易失存储环境具有更丰富的存储层级,而另一方面新型处理器技术也为索引提供了额外的数据处理资源,因此面向多层级的、processor-conscious的索引技术也是未来研究的方向;


3)硬件感知的查询处理与性能优化:查询处理是数据分析中最核心的操作,其涉及数据提取过程中一系列复杂的活动。异构计算架构提供的高度并行能力和可定制能力,以及非易失存储环境全新的I/O特征都使得以往的查询处理和优化机制难以适用。未来研究可能集中在两个方面,一是非易失存储环境下的查询优化技术:NVM的高速读写、字节可寻址以及非对称读写等特征对于传统查询操作,如连接、排序和聚集等都将产生显著影响。同时NVM改变了传统存储层级的构成,也影响了传统的以磁盘存储代价来估算查询代价的度量假设,因此未来有必要研究非易失存储环境下的代价模型,以及Write-limited 算法和数据结构的设计与优化,尽可能地降低NVM 写操作产生的负面影响;另一方面是异构处理器平台下的查询优化技术:由于,新型处理器的引入增加了异构计算平台的维度,导致查询优化技术的复杂度进一步提升,对查询优化器的设计提出巨大的挑战。面对新型异构处理器平台,数据库需要能够提供核心查询处理的技术平台迁移。面向异构处理器平台的协同查询处理技术、面向异构处理器平台的分析型查询优化技术以及混合查询执行计划生成技术等都是全面提高异构计算平台下的查询效率的可能途径;


4)新型硬件使能的事务处理技术:并发控制和故障恢复是数据管理系统确保事务隔离性和持久性的核心功能,其设计和实现与底层计算和存储环境的关系非常紧密。同时,高性能网络环境也对以往难以扩展的分布式事务处理提供了新的机遇。首先,NVM非易失存储环境中存储层次的架构与不同层次间存储介质的读写特征对事务恢复技术而言都有最直接的影响,需要根据NVM的优异特性优化数据库恢复技术。面向NVM内存环境的恢复技术、NVM 混合非易失环境下的划分技术以及NVM 感知的事务并发控制技术都是亟待开展的研究内容。其次,事务处理通常涉及多种类型操作及其之间的同步,而通用处理器和专用加速器具备不同的数据处理模式,为此将传统方式中由通用处理器CPU完成的事务处理负载进行分离,将部分负载迁移至专用加速处理器,可以达到有效提高事务处理性能的目的,因此研究针对事务处理加速的负载均衡和IO优化技术,是有效解决事务处理性能瓶颈的可能途径;再者,RDMA使能的高性能网络环境下,严格控制或者不使用分布式事务以及使用弱一致性的分布式事务系统设计桎梏将不复存在。RDMA使能的分布式提交协议以及面向RDMA的悲观与乐观并发控制方法可能都是需要研究的内容。


4 结束语


新型硬件及其构建的环境将深度影响整个计算体系的架构模式,并改变上层软件既往的设计假设,在提供更高物理性能的同时,也要求数据管理与分析的软件架构和相关技术能够感知并适应新型硬件的特点。新型硬件环境使得数据管理与分析系统的设计空间的权衡变得更加复杂,带来了多维度的研究挑战。在未来的研究中,迫切需要打破原有数据管理与分析软件架构的封闭性,依据硬件环境的特征以及数据管理与分析系统的核心功能,自底向上探索与研究全新的数据处理模式、架构、策略与技术。


转载自“中国计算机学会”微信公众号

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值