Apache druid 中提交 hadoop任务合并segement

最新推荐文章于 2023-05-22 14:09:33 发布

置顶极客架构

最新推荐文章于 2023-05-22 14:09:33 发布

阅读量438

点赞数

分类专栏： druid 文章标签： hadoop 大数据 olap apache

本文链接：https://blog.csdn.net/tianshishangxin1/article/details/106389741

版权

druid 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

简述

在上篇文章中[Apache Druid 0.18.1 compact （合并，压缩） segements] 说明了使用 compact 任务进行合并，压缩segement。
基本上的合并任务compact都可以满足。

但如果遇到比较复杂的需要时，例如需要根据维度，metrics 进行重建时，compact就无法满足需要了。

hadoop 重建任务

{
    "type":"index_hadoop",
    "spec":{
        "dataSchema":{
            "dataSource":"loginlog_1h",
            "parser":{
                "type":"hadoopyString",
                "parseSpec":{
                    "format":"json",
                    "timestampSpec":{
                        "column":"timeStamp",
                        "format":"auto"
                    },
                   "dimensionsSpec": {
                     "dimensions": [
                        "realm_id",
                        "app_id",
						"team_id",
                        "sales_team",
                        "member_id",
                        "member_name"
                    ],
                    "dimensionExclusions": [
                        "timeStamp",
                        "value"
                    ]
                }
                }
            },
             "metricsSpec": [
            {
                "type": "count",
                "name": "count"
            }
        ],
            "granularitySpec":{
                "type":"uniform",
                "segmentGranularity":"DAY",
                "queryGranularity": "HOUR"
                
            }
        },
        "ioConfig":{
            "type":"hadoop",
            "inputSpec":{
                "type":"dataSource",
                "ingestionSpec":{
                    "dataSource":"loginlog_1h",
                    "intervals":[
                         "2019-01-01/2020-01-01"
                    ]
                }
            }
            
        },
		"tuningConfig":{
                "type":"hadoop",
                 "maxRowsInMemory":500000,
                 "partitionsSpec":{
                    "type":"hashed",
                    "targetPartitionSize":5000000
                },
                "numBackgroundPersistThreads":1,
                 "forceExtendableShardSpecs":true,
                "jobProperties":{
				"mapreduce.job.local.dir":"/home/druid/mapred",
                "mapreduce.cluster.local.dir":"/home/mapred",
                	"mapred.job.map.memory.mb":4300,
                	"mapreduce.reduce.memory.mb":4300
                
                }
               
            }
    }
}

hadoop 任务与compact 任务对比

在较小的任务，不涉及数据重建的情况下建议使用compact.如果数据量比较大则建议使用hadoop任务。

任务提交地址

http://overlord:port/druid/indexer/v1/task

参考资料

https://druid.apache.org/docs/latest/ingestion/hadoop.html

极客架构

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Apache druid 中提交 hadoop任务 合并segement

简述

hadoop 重建任务

hadoop 任务 与compact 任务对比

任务提交地址

参考资料

Apache druid 中提交 hadoop任务合并segement

hadoop 任务与compact 任务对比