离线数仓:
数据流程
- 主要分为两部分:用户行为数仓和业务数仓
- 用户行为数仓的来源是埋点的用户行为日志文件,通过Flume(Source–channel- datahubSink)采集导入至DataHub中;埋点数据本质上是K-V形式JsonObject所组成的JsonArray;
- DataHub:数据总线(topic形式,可类比kafka);
- MaxCompute/DataWorks:数据处理平台,dataWorks 是IDE
Hive的UDTF函数
- 用户定义函数(user-defined function)UDF;
- 用户定义聚集函数(user-defined aggregate function,UDAF);
- 用户定义表生成函数(user-defined table-generating function