个人总结
huobumingbai1234
路漫漫其修远兮,吾将上下而求索
展开
-
hive group by和distinct性能完全一致
先说结论,两者没有区别,先看执行计划1、group byexplainselect prov_idfrom dim.dim_citygroup by prov_id;STAGE DEPENDENCIES:Stage-1 is a root stageStage-0 depends on stages: Stage-1STAGE PLANS:Stage: Stage-1Map ReduceMap Operator Tree:TableScanalias原创 2022-02-13 18:19:00 · 449 阅读 · 0 评论 -
hive-join的执行计划观察
看下join的执行过程,还是看explain计划。sql代码如下:explainselect t1.prov_id ,t2.deepfrom ( select prov_id ,deep from dim.dim_city where prov_id = 110000 ) t1join ( selec原创 2022-02-13 17:22:37 · 590 阅读 · 0 评论 -
flink-streaming消费kafka动态分区写入HDFS(SequenceFile)文件
主要记录下streaming模式下动态分区怎么写文件,sql模式直接写就是了,streaming模式需要自己写下分区方法。大致的数据流程是消费kafka,拆解json,数据写到hdfs(sequenceFile)路径。1、分区需要自定义,这里是读取流数据,获取分区字段package partitionassigner;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.flink.core.io.S...原创 2022-01-09 10:59:06 · 1096 阅读 · 0 评论 -
大数据之路-看书总结
很早就看过一点,看的不连续,今天专门花时间完整看一遍总结下这本书里自己关注的知识点和自己的一些思考,算是读书笔记吧。2.2.1页面事件 1、这里说到页面型日志上报的时候,进入页面和离开页面成对使用和上报以解决使用时长问题。个人记录:这个策略很好,成对上报进入页面也记录下,使用方便,要不还要再处理数据2、页面透传阿里是通过spm实现,用户行为路径轻松实现个人记录:spm现在互联网公司用的比较全面了,但是一般在使用上并不轻松,往往需要做数据打平的工作,在没有...原创 2021-12-26 17:53:43 · 1021 阅读 · 0 评论 -
excel实现分组合并后居中
帮一个前同事搞一个分组合并居中,还是查了半天,记录下一、前后效果对比二、操作步骤1、选中A列,分类汇总2、选中A2-A21,ctrl+g定位条件,选空值,然后写=A1,ctrl+enter,然后点退回键,删除刚才条件里面的数据,然后直接点合并后居中3、 然后筛选删除刚才新加的这一行,就删除第一列有值的就好4、最后一步选中第一列的空白区域,点格式刷,然后选中第二列,再删除第一列就行了...原创 2021-12-11 18:26:06 · 1807 阅读 · 0 评论 -
flink实时生产维度表
十一之前写了个实时的维表,flink-sql实现的,技术上并不难,之前没写过,还是踩了一些坑的,特此总结下一、需求背景1、离线有个用户的维度表,需要搬到流上面,大概是1000万的存量数据,上游来自8个mysql表2、可用的组件有kafka,flink,hbase,redis3、8个表每个变更都需要下发一条完整的记录到kafka二、任务思路1、首先要想好写几个Hbase维表,业务上主键要想清楚,这是每次关联都需要的,比如,这个用户维度表主键是用户id,但是可能还会有身份证id啥的做关联原创 2021-10-07 22:57:07 · 1097 阅读 · 0 评论 -
阿里云dataworks/maxcomputer和自建集群的对比
云平台近几年在飞速发展,有些公司也会把自己的在线业务和离线数据业务迁移到阿里云上,一方面节省研发成本,另一方面服务更加稳定,下面我以自己粗浅的认识对比下两者。指标 自建集群 云平台 研发要求 高 低 自由度 高 低 研发配置 数仓/集群搭建 数仓 学习成本 高 低 工种配置 数仓组+平台组+大数...原创 2018-11-24 20:25:44 · 5006 阅读 · 0 评论 -
数仓面试总结
2021年5月开始找工作,面试了若干个数仓的岗位,面的差不多也就2个,总结下大致的面试内容一、字节视频面,上海的一个部门,视频面挂,小伙伴内推的 这个5月份面的,大概视频面试了一个小时,主要面试内容 1、问了mapreduce的具体执行过程,这位面试官还问到了执行计划的东西,就是explain sql代码的东西,这个我基本都不会 2、数仓分层的东西,就大致讲了下分几层还有主题的划分 3、因为我现在做了一些flink的东西,问了一点流的东西 4、做了1个sql的题目...原创 2021-07-08 16:55:12 · 3959 阅读 · 0 评论 -
flink-java版学习-1-本地批处理和流处理
之前学习了java基础知识,也忘记的差不多了,日常工作还是天天写sql,不写就是不行,还是跟着项目多写写,也学习下flink。 学习主要参照尚硅谷的教程,https://www.bilibili.com/video/BV1qy4y1q728?p=7,感谢尚硅谷的免费课程,有上海的周末培训班就好了,感谢B站。1、首先,需要配置pom文件,我抄来的<?xml version="1.0" encoding="UTF-8"?><project xmlns="ht...原创 2020-12-27 23:43:11 · 837 阅读 · 0 评论 -
excel实现简单sql规律化代码生成
工作中有时候需要规律化生成sql语句,主要是字段信息上,比如规律化的拆解字段,一个一个写实在是慢,用excel函数规律化生成下。实例:如果我是知道这些字段的,比如有个建表语句,黏贴到excel,没有自动分列的自动分列下:然后:第一列函数操作下:=",json_value(message,'$."&B1&"') as "&B1就有了这个效果:当然,如果使用场景多了也可以写个小程序每次按照这个规律处理下,偶尔使用下excel效率还行...原创 2020-08-17 23:43:34 · 296 阅读 · 0 评论