如何在MaxCompute上处理存储在OSS上的开源格式数据

最新推荐文章于 2024-08-07 10:03:45 发布

maoreyou

最新推荐文章于 2024-08-07 10:03:45 发布

阅读量1.2k

点赞数

文章标签： Java

本文链接：https://blog.csdn.net/maoreyou/article/details/80526156

版权

本文介绍了如何在MaxCompute 2.0的非结构化计算框架下，处理存储在OSS上的开源数据格式，如ORC, PARQUET等。通过创建EXTERNAL TABLE与OSS数据关联，实现数据的读取和处理。文中提供了具体的DDL语句示例，并建议将数据导入MaxCompute内部以提高计算效率。" 93357294,8176006,Windows Server 2012 R2下FTP服务器的配置实战,"['FTP服务器的配置', 'Windows server 2012 R2', '项目管理']

摘要由CSDN通过智能技术生成

前言

MaxCompute作为使用最广泛的大数据平台，内部存储的数据以EB量级计算。巨大的数据存储量以及大规模计算下高性能数据读写的需求，对于MaxCompute提出了各种高要求及挑战。处在大数据时代，数据的来源多种多样，开源社区经过十几年的发展，百花齐放，各种各样的数据格式不断的出现。我们的用户也在各个场景上，通过各种计算框架，积累了各种不同格式的数据。怎样将MaxCompute强大的计算能力开放给这些使用开源格式存储沉淀下来的数据，在MaxCompute上挖掘这些数据中的信息，是MaxCompute团队希望解决的问题。

MaxCompute 2.0最近推出的非结构化计算框架【公测阶段】，旨在从存储介质和存储格式两个维度，打通计算与存储的通道。在之前的文章中，我们已经介绍过怎样在MaxCompute上对存储在OSS上的文本，音频，图像等格式的数据，以及TableStore(OTS)的KV数据进行计算处理。在这里，则将介绍对于各种流行的开源数据格式(ORC, PARQUET, SEQUENCEFILE, RCFILE, AVRO, TEXTFILE等等)，怎样将其存储在OSS上面，并通过非结构化框架在MaxCompute进行处理。

本着不重造轮子的原则，对于绝大部分这些开源数据格式的解析工作，在非结构化框架中会直接调用开源社区的实现，并且无缝的与MaxCompute系统做对接。

1. 创建EXTERNAL TABLE来绑定OSS外部数据

MaxCompute非结构化数据框架通过EXTERNAL TABLE的概念来提供MaxCompute与各种数据的联通，与读取OSS数据的使用方法类似，对OSS数据进行写操作，首先要通过CREATE EXTERNAL TABLE语句创建出一个外部表，而在读取开源数据格式时，创建外表的DDL语句格式如下：