核心引擎
MaxCompute
阿里离线数据计算平台(离线数仓)
原名ODPS,阿里巴巴自主研发的海量数据处理平台
MaxCompute处理存储在Table Store的数据(不负责收集数据到Table Store中),
使用Fluentd服务(类似的服务还有kafka、LogHub、DataX等,都大同小异,这里我用Fluentd作描述只是方便),通过Fluentd我们轻松的创建任务去按时读取各台服务器上的日志文件。简单点说就是你只需要配置服务器上日志的路径,Fluentd就帮你把日志存储到MaxCompute的Table Store中,然后你就能愉快的通过MaxCompute分析数据了。
习惯称MaxCompute 的Table Store的实例为 MaxCompute table(表)
MaxCompute Table只支持添加数据,不支持删除与修改数据。
分区信息可以创建很多个,但是在导入、导出、某些特殊查询时要带上完整的分区名称,不支持前缀等模糊匹配
Java的编程接口M和axCompute客户端命令都可以完成本地文件导入MaxCompute存储:(引用 阿里云大数据分析师ACP认证21--阿里云大数据平台MaxCompute简介_哔哩哔哩_bilibili)
实时增量数据通道(DataHub)支持MaxCompute实时增量数据的导入
MaxCompute支持的计算及分析任务的方式:SQL、UDF、Graph、MapReduce、Spark On MaxCompute(这些方式都是操作表)。
MaxCompute数据的组织方式:Project项目空间、Table表、Partition分区
MaxCompute表分内表和外部,外表不是自身存储的表(比如可以管理的oss数据等,只是存有对应的元数据信息,相当于外部介质存储表的一个link)
MaxCompute可以对哪些外部数据源创建外表呢?(这情况获取可以直接离线使用数据,不需要同步过来了)
MaxCompute单表分区层级最多6级;单表最多分区数上限6万;单次查询使用分区上限1万;分区字段不能是中文;
MaxCompute生命周期:CirleLife,只能表级别设定生命周期&#