大数据
文章平均质量分 57
weixin_37042673
这个作者很懒,什么都没留下…
展开
-
kylin的cube优化
1 针对按照时间分区的分区表,可以设置增量构建cube,partion start date 设置开始日期,auto merge thresholds 表示 每日构建一个segment, 7 天小合并,28天大合并 2 设置聚合组,可以设置多个聚合组,inclues选定该聚合组的维度,mandatory 设置必选维度, hierarchy 设置层级维度, joint 设置1:1 出现的维度 例如province_id 与 province_name 3 rowkey 设置, 频繁使用的过滤条件.原创 2021-03-31 17:08:21 · 168 阅读 · 0 评论 -
sqoop同步数据流程decimal
sqoop同步数据流程decimal 文章目录sqoop同步数据流程decimal指定输入类指定orm指定输入类指定输出类指定输出路径指定mapper类map方法toAvro方法record 的put 方法第二步merge任务入口merge目录runMergeJob方法配置output配置mapper和reduce方法merge过程的map方法merge的reduce方法源码修改的源码 指定输入类 指定输入类 ImportJobContext.class public ImportJobContext(原创 2021-03-29 13:27:07 · 589 阅读 · 0 评论 -
触发式azkaban
触发式azkaban 文章目录触发式azkaban流程图添加任务执行azkaban任务获取sessionIdshell脚本中的回调命令azkaban回调函数 流程图 添加任务 添加任务 ZSYMethodsInfoServiceImpl.java // 添加任务 methodStatJobMapper.insert(methodStatJob); // 如果当前没有任务,该任务状态直接变为prepare,直接执行 if (methodStatJob原创 2021-03-26 12:05:21 · 440 阅读 · 1 评论 -
ES中语句查询
ES中语句查询es语句 es语句 #get 请求logstash-zsy-api索引,logs类型的内容 GET /logstash-zsy-api/logs/_search { # 查询结构不展示 "size": 0, "query": { "bool": { "must": [ { "match": { "requestUri": "GET[/ims/goods/up/list]" }原创 2020-12-31 15:43:35 · 300 阅读 · 0 评论 -
shell调度kylin的cube构建任务
shell调度kylin的cube调度任务shell shell 1 #!/bin/bash 2 3 echo "kylin_host_port:${1}" 4 echo "cube_name:${2}" 5 6 kylin=${1} 7 cube=${2} 8 9 # 构建cube 10 uuidstr=`curl -X PUT --header "Authorization: Basic YWRtaW46S1lMSU4=" --header 'Content-原创 2020-12-22 17:09:40 · 318 阅读 · 0 评论 -
kylin构建cube
kylin 的cube 构建 1 新建项目(略) 2 新建model 2.1选事实表和维度表 如果维度表小,可以存到内存中,就不用skip snapshot for this lookup table 2.2 维度 2.3 度量 2.4 过滤条件 3 新建cube 3.1 维度选择(维度表的method_name的类型为derived,构建cube时不计入cube的维度,cube构建后通过外键method_id来推导出来method_name对应的维度信息) ...原创 2020-12-18 15:01:31 · 136 阅读 · 0 评论 -
kylin的datasource配置
kylin的datasource配置 文章目录kylin的datasource配置parquet(decimal)kylin的datasourcekylin 配置获取kylin datasourceconnection 的代理对象生成构造方法invoke方法wait方法notify方法 parquet(decimal) spark写parquet数据,decimal类型在hive中无法识别问题解决 StudentExamScoreStatSpark.java //处理个别数据类型(eg. decimal原创 2020-12-18 12:11:35 · 652 阅读 · 0 评论 -
hbase入门
1 hbase 结构 1.1 zookeeper 1 master 保存master位置,利用zookeeper 选举机制避免master单点故障 2 保存-root-表位置 3 regionServer 注册到zookeeper, master 感应 regionserver的健康情况 1.2 master 1 regionserver 的负载均衡 2 用户增删改查table数据 3在Region Split后,负责新Region的分配 4 regionserver 挂掉后,重新分配..原创 2020-11-17 19:33:19 · 348 阅读 · 0 评论 -
avro 序列化框架
1 问题描述 mysql decimal 类型,通过sqoop 导入到hdfs 过程中,当decimal 精度小于等于18时,spark 无法解析 2 原码片段 avro fix 类型 需要byte 位数 根据decimal 的精度确定 public static final int[] PRECISION_TO_BYTE_COUNT = new int[38]; // 例如有4位精度,则Math.log(Math.pow(10.0D, (double)prec) - 1...原创 2020-11-13 18:25:33 · 429 阅读 · 0 评论