Extract Fact Table Distinct Columns(MR) 流程和源码解析

最新推荐文章于 2024-05-28 09:54:09 发布

nice to meet you2

最新推荐文章于 2024-05-28 09:54:09 发布

阅读量1k

点赞数

分类专栏： kylin hadoop 大数据开发

本文链接：https://blog.csdn.net/wangxiaojing123/article/details/102862985

版权

hadoop 同时被 3 个专栏收录

23 篇文章 0 订阅

订阅专栏

大数据开发

21 篇文章 0 订阅

订阅专栏

kylin

15 篇文章 6 订阅

订阅专栏

Extract Fact Table Distinct Columns job 进行统计估算和字典编码、范围计算，具体主要做3件事情：1、HLL估算统计每个cuboid的结果条数；2、所有非Derived维度列的范围（min-max）；3、所有需要字典编码的列进行字典编码；这3部分内容都会存储到HDFS上，共后续步骤使用。本文所有的讲解根据MR实现进行讲解，Spark大家对照思路进行分析。

执行入口类： MapReduceExecutable.doWork 中调用job类的run方法即调用FactDistinctColumnsJob.run
输入数据：
(1)、采样的数据比例，kylin.job.sampling-percentage，default 100，已经第一步flatTable中的数据。
输出目录：
(1)、/user/prod_kylin/kylin_engine/BIGDATA_KYLIN-kylin_meadata_test/kylin-jobId/cubeName/fact_distinct_columns/
MR Mapper：
（1)、FactDistinctColumnsMapper.java
（2)、inputFormat 为flat table(flatTableInputFormat)
（3)、Mapper输出：
a、需要字典列的每列在此mapper中不同的值，输出一个selfKey(1个字节的reduce编号+某行此列的值+数据类型)，value为null；
b、每个mapper中所有非Derived维度列且不属于a中的列的每列出现的最大值和最小值,输出一个selfKey(1个字节的reduce编号+此列的max值(会min值)+数据类型)，value为null，每个mapper会输出某列两个此类型输出，一个max一个min；
c、每个mapper对每个cubid的估算值,输出一个selfKey(固定第一个字节为输出的类型（-1表示为 HLL（HyperLogLog）类型的Reduce编号计算规则，具体参见partitioner计算reduce编号） + 某个cubid（8个字节） +数据类型（此处固定为0）)，value为此mapper对此cubid的估算值；
MR Combiner： CombinerFactDistinctColumnsCombiner
由于Mapper的3种输出，其中dict列的value为空，只需要去重key值即可；hll因为每个cubid就一个所以在combiner没有做任何处理; max和min每个mapper也只有一个也没有在commbiner做任何处理；
MR Partitioner：
(1)、 PartitionerClass：FactDistinctColumnPartitioner.java
根据mapper key的第一个字节除hll外其他的就是存储的实际的reduce编号直接返回即可，hll类型的则根据这个cubid%hllreducecount（计算hll总的reduce数），然后用nDimReducers的个数加上cubid%hllreducecount值即为此cubid的reduce编号，通常hllreducecount为1，即所有的cubid的hll计算均在一个reduce中完成，同一个cuboid总会分配到同一个reduce计算hll。

计算Reduce编号源码：

    @Override
    public int getPartition(SelfDefineSortableKey skey, Text value, int numReduceTasks) {
        Text key = skey.getText();
        if (key.getBytes()[0] == FactDistinctColumnsReducerMapping.MARK_FOR_HLL_COUNTER) {//key的第一个字节如果是-1的情况表示是HLL
            Long cuboidId = Bytes.toLong(key.getBytes(), 1, Bytes.SIZEOF_LONG);
            return reducerMapping.getReducerIdForCuboidRowCount(cuboidId);
        } else {
            return BytesUtil.readUnsigned(key.getBytes(), 0, 1);
        }
    }

计算某个cuboid HLL Reduce 编号源码：

public int getReducerIdForCuboidRowCount(long cuboidId) {
        int rowCounterId = (int) (Math.abs(cuboidId) % nCuboidRowCounters);
        return nDimReducers + rowCounterId;
    }

MR Reducer：
根据Mapper的输入进行需要字典列的字典构建、计算所有非derived维度列max和Min、HLL估算的统计值。
(1)、FactDistinctColumnsReducer.java
(2)、MultipleOutputs：
HLL估算统计结果输出：
输出路径：baseDir/statistics/statistics-r-0000x
输出内容：共有3+cuboid.length行记录，其中==前3行的内容分别为：
== key=-1（表示mapper重叠率），value=合并前的每个mapper对每个cuboid 的估算的rowcount和/合并每个mapper对每个cuboid估算的rowcount后的和；key=-2（表示此reduce的输入的mapper数量），value即mapper的数量；
key=0（表示抽样的百分比），value为抽样的百分比，这是咱们从配置文件中配置的默认是14%。
其他行的内容为每个cuboid及其对应的估算结果。
所有非Derived维度列的范围：
输出路径：baseDir/colName/colName.dci-r-0000x
输出内容: 每个reduce只有两行内容，某列此reduce max和min值，第一行为Min值，第二行为Max值，key为空即只有一个字段。
所有需要字典编码列字典编码内容：
输出路径：baseDir/colName/colName.rldict-r-0000x
输出内容: 只有一行记录，即某列此reduce的字典值，key为空即只有一个字段。
名词解释：
某个cube的所有需要编码的列：
（1）、此cube维度列的编码类型为dict的列（Rowkeys中Encoding,同时需要排除掉此列为MR HIVE类型的列或derived的列、Extended的列）;

(2)、度量的类型为Bitmap（bitmap且列类型为bigint类型，如果此列是MR HIVE类型则也不包含）、Raw、TopN(topN measuer且此列为dict列或者未配置encoding)；排除MR HIVE的列的度量类型为Bitmap且该列类型为bigint类型的列或Raw或TopN且此列为dict列或者未配置encoding。

ShardByColumns：
在这里插入图片描述
Global Dictionaries
全局字典列且此列的Build Class类型为GlobalDictionaryBuilder或SegmentAppendTrieDictBuilder类型。

nice to meet you2

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Extract Fact Table Distinct Columns(MR) 流程和源码解析

Extract Fact Table Distinct Columns job 进行统计估算和字典编码、范围计算，具体主要做3件事情：1、HLL估算统计每个cuboid的结果条数；2、所有非Derived维度列的范围（min-max）；3、所有需要字典编码的列进行字典编码；这3部分内容都会存储到HDFS上，共后续步骤使用。本文所有的讲解根据MR实现进行讲解，Spark大家对照思路进行分析。...
复制链接

扫一扫