MaxCompute做数据存储和数据分析处理,
Dataworks是集成了数据集成、数据开发调试、作业编排及运维、元数据管理、数据质量管理、数据API服务等等功能的大数据开发IDE套件。类似Spark和HUE的关系,不知道这个对比是否准确。
MaxCompute存储目前只暴露表,能处理非结构化数据吗?
可以,非结构化数据可以存放在OSS上,一种方式是通过外表方式,通过自定义Extractor来实现非结构化处理为结构化数据的逻辑。另外,也可以用Spark on MaxCompute对OSS进行访问,通过Spark程序对OSS目录下的文件进行抽取转换,结果写入MaxCompute表。
支持哪些数据源接入到MaxCompute
通过Dataworks数据集成服务或者自己使用DataX,可以实现阿里云上的各种离线数据源如数据库、HDFS、FTP等数据源的接入;
也可以用MaxCompute Tunnel工具/SDK,通过命令或SDK批量进行数据上传、下载;
流式数据,可以利用MaxCompute提供的Flume/logstash插件,将流式数据写入Datahub,然后归档到MaxCompute表;
支持阿里云SLS、DTS服务数据写入MaxCompute表;