1. 引言
在分析广告日志时,会有这样的多维分析需求:
- 曝光、点击用户分别有多少?
- 标签能覆盖多少广告用户?
- 各个标签(标注)类别能覆盖的曝光、点击在各个DSP上所覆盖的用户数
- ……
广告数据与标签数据join之后,存储orc file的schema如下:
create external table default.ad_tag
(
uid string
,dsp string
,view string
,click string
,tags array<struct<tag:string,label:string,src:string>>
)
partitioned by (day_time date)
stored as orc
location '/<path>/<to>';
用户可能会有多个标签,因此采用array<struct>
数据类型来作为用户的标签字段。可是,当用Kylin做多维分析时,会出现问题——Kylin只能导入扁平化的Hive表,简而言之,其不支持Hive的复杂数据类型,如array、struct、map等。