三吱儿
码龄10年
关注
提问 私信
  • 博客:5,068
    5,068
    总访问量
  • 6
    原创
  • 802,312
    排名
  • 0
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2014-10-24
博客简介:

qq_22482081的博客

查看详细资料
个人成就
  • 获得0次点赞
  • 内容获得0次评论
  • 获得11次收藏
创作历程
  • 6篇
    2021年
成就勋章
TA的专栏
  • 模型设计
    1篇
  • impala
    1篇
  • hive
    4篇
  • spark sql
    1篇
  • scala
兴趣领域 设置
  • 大数据
    hadoophivespark
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

2021-08-04 原子指标,派生指标,衍生原子指标定义

原子指标:和度量含义相同,某一业务行为事件下的度量,是业务定义中不可拆分的指标,如销售金额、库存数量。派生指标:修饰词和原子指标组合生成派生指标。如某个渠道的销售金额,渠道类型为修饰词,销售金额为原子指标,分销销售金额、智药通销售金额为派生指标修饰词:修饰词用于派生指标和复合指标的定义,不含有计算口径。指除了统计维度以外指标的业务场景,如某个维表的属性字段,客户类型,渠道类型。衍生原子指标:原子指标根据衍生词的计算口径加工得到的衍生原子指标。如近效期库存,近效期(所属业务单元内,
原创
发布博客 2021.08.04 ·
2768 阅读 ·
0 点赞 ·
0 评论 ·
8 收藏

2021-03-30 hive impala udf 测试

udf 代码参考package org.ydd.hivetest;import org.apache.hadoop.hive.ql.exec.UDF;public class Null2Num extends UDF { public static String evaluate(String str, int range) { int seq = (int) (Math.random() * range); return str == null || s
原创
发布博客 2021.03.30 ·
164 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

2021-03-29 spark sql not in 造成的执行缓慢

背景:同事写了很长一段sql,执行时间特别长,让我帮他优化一下执行引擎:spark 一个小时都跑不出结果,卡在mapshuffle阶段impala 不到一分钟出结果过程:多次调试:怀疑是GC引起的,尝试修改driver,executor内存,无效set spark.executor.memory = 4g;set spark.driver.memory = 10g;set spark.sql.adaptive.shuffle.targetPostShuffleInputSiz
原创
发布博客 2021.03.29 ·
1090 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

2021-03-09 hive 参数设置

查看hive参数查看所有参数set查看block大小set dfs.block.size;dfs.block.size=134217728 --默认大小128Mmap个数(和inputsize相关)计算inputsplit size新API CombineHiveInputFormat Math.max(minSize, Math.min(maxSize, blockSize))老API HiveInputFormat Math.max(minSize, Math.min(goalSiz
原创
发布博客 2021.03.09 ·
765 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

2021-03-09 hive explain 执行计划分析2

hive explain 执行计划分析sql如下:explainselect fhddate,vouchtype,sum(quantity),row_number() over() rn,rank() over(partition by fhddate order by vouchtype) rkfrom jmkx_data.ods_dm_base_fhd_dd aleft join jmkx_data.ods_dm_base_fhd_detail_dd bon a.fhdid = b.fhdi
原创
发布博客 2021.03.09 ·
169 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

2021-03-09 hive explain 执行计划分析1

hive explain 执行计划分析sql如下:explainselect fhddate,vouchtype,sum(quantity)from jmkx_data.ods_dm_base_fhd_dd aleft join jmkx_data.ods_dm_base_fhd_detail_dd bon a.fhdid = b.fhdid and b.dt = '2020-03-08'where a.dt = '2021-03-08'group by fhddate,vouchtype
原创
发布博客 2021.03.09 ·
110 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏