左林右李02
mt实时数据平台研发
展开
-
自动拼接sql的原理
自动拼接sql原理原创 2023-02-21 10:25:50 · 286 阅读 · 0 评论 -
doris进阶之bitmap_union_count查询性能优化
doris进阶之bitmap_union_count查询性能优化原创 2022-10-08 21:17:17 · 928 阅读 · 0 评论 -
doris通关之分区分桶调优
doris分区分桶调优转载 2022-09-26 16:45:25 · 1666 阅读 · 0 评论 -
bitmap索引概念
bitmap索引概念转载 2022-09-20 12:06:12 · 1542 阅读 · 0 评论 -
doris通关之doris三种数据模型
doris三种模型原创 2022-09-12 11:38:50 · 927 阅读 · 0 评论 -
doris通关之doris常见问题
doris常用指令原创 2022-09-12 10:12:37 · 995 阅读 · 0 评论 -
doris通关之概念、架构篇
doris通关原创 2022-09-10 13:27:04 · 1594 阅读 · 0 评论 -
join造成的数据倾斜优化
spark join倾斜调优转载 2022-08-08 18:12:35 · 846 阅读 · 0 评论 -
spark5种join策略
因为是否小表走广播是根据spark对元数据的估算得到的,如果join表有很多的filter容易把表估大,造成本可以广播的情况实际没有广播原创 2022-05-16 22:20:28 · 732 阅读 · 0 评论 -
bitmap去重udf、udaf代码解析
toBitmap代码分析要想使用bitmap做去重,第一步是要将long型数据转换成bitmap,这个功能可以实现为udf,也是以是udaf,下面是udaf版本代码分析代码的大概含义就是调用rbm中的add方法,不停的将long数据添加到rbm中,然后将rbm转换成为二进制数组输出public class ToDorisBitmapUDAF extends AbstractGenericUDAFResolver{ //判断 @Override public GenericUD原创 2022-05-05 18:57:31 · 541 阅读 · 0 评论 -
列式存储orc介绍和优化
列式存储 由于OLAP查询的特点,列式存储可以提升其查询性能,但是它是如何做到的呢?这就要从列式存储的原理说起,从图1中可以看到,相对于关系数据库中通常使用的行式存储,在使用列式存储时每一列的所有元素都是顺序存储的。由此特点可以给查询带来如下的优化:查询的时候不需要扫描全部的数据,而只需要读取每次查询涉及的列,这样可以将I/O消耗降低N倍,另外可以保存每一列的统计信息(min、max、sum等),实现部分的谓词下推。由于每一列的成员都是同构的,可以针对不同的数据类型使用更高效的数据压缩算法,进一原创 2022-04-06 18:24:34 · 1063 阅读 · 0 评论 -
运营常用简写
简写描述CPMCost Per Mile(thousand impression),每千次曝光成本。CPCCost Per Click,每点击成本。CPACost Per Sale,每次行动成本;一种效果广告计费方式,通常广告主可自定义转化目标,如注册、登录,按转化目标达成次数结算计费。CPSCost Per Sale,每成交订单成本。CPDCost Per Day,每天成本。CPTCost Per Time,每时间成本。CTRClick...原创 2022-03-23 18:01:59 · 3118 阅读 · 0 评论 -
s3文件重命名
package com.bighalf.doc.amazon;import java.io.ByteArrayInputStream;import java.io.InputStream;import java.util.List;import com.amazonaws.auth.AWSCredentials;import com.amazonaws.auth.BasicAWSCredentials;import com.amazonaws.services.s3.AmazonS3;im转载 2022-01-04 11:23:39 · 975 阅读 · 0 评论 -
spark on yarn模式内存细分
Spark基本概念在讲解Spark作业memory使用前,确保理解以下Spark 基本概念:Application: 基于Spark的用户程序,包含了一个driver program 和 集群中多个的executorDriver:运行Application的main()函数并且创建SparkContext,通常用SparkContext代表Driver ProgramExecutor: 是为某Application运行在worker node上的一个进程,该进程负责运行Task,并且负责将数据存在原创 2022-03-23 17:39:45 · 1375 阅读 · 0 评论 -
doris常用命令
改表字段长度ALTER TABLE db.tb MODIFY COLUMN col varchar(8192) NULL COMMENT “”删除字段ALTER TABLE db.tb DROP COLUMN col添加字段ALTER TABLE db.tbADD COLUMN col int(11) DEFAULT ‘0’ comment ‘’ AFTER other_col;doris 新增指标字段ALTER TABLE table1 ADD COLUMN uv BIGIN原创 2022-03-15 20:05:08 · 8926 阅读 · 0 评论 -
什么样的sql会产生BroadcastNestedLoopJoin
join条件不等值时原创 2022-02-28 17:37:01 · 849 阅读 · 0 评论 -
grouping sets导致结果重复排查方法
grouping sets造成的重复一般是group by 维度有空值导致(因为维度的空值和group by缺省所产出的数据相同)这种排查方法有两种:1.可以挨个维度筛查是否有null的数据2.从grouping sets的结果来看,假设维度A有空值,那么grouping sets的结果是只有A=全部时才会重,A!=全部时是不会重复的(这种排查方法在多个维度都有问题时不太好用,可以转为使用方法一)...原创 2022-02-18 16:26:21 · 768 阅读 · 0 评论 -
数据仓库常用专业描述
1.在维度建模中,将度量称为事实,将环境描述称为维度2.如何获取维度或者维度属性?有以下两种方法:1.如果有可用报表,那么可以直接从报表中获取2.可以和业务人员交谈中发现维度或者维度属性,它们经常出现在按照(by)语句内,例如,用户要按照月份和产品来查看销售情况。...原创 2022-02-17 09:26:46 · 545 阅读 · 0 评论 -
doris bitmap union count在新增维度情况下原组合去重值不变
doris bitmap union count在新增维度情况下原组合去重值不变原创 2022-01-21 11:17:34 · 680 阅读 · 0 评论 -
spark web ui怎么看
Spark UI是反映一个Spark作业执行情况的web页面, 用户可以通过Spark UI观察Spark作业的执行状态, 分析可能存在的问题. 本文会介绍Spark UI的相关内容和常用的分析方法, 帮助用户更快看懂Spark究竟是如何执行代码以及通过Spark UI定位常见的作业问题....原创 2021-12-27 14:16:36 · 1693 阅读 · 0 评论 -
非AB实验-CI的原理
CI全称casual impact,该方法基于合成控制法的原理,利用多个对照组数据来构建贝叶斯结构时间序列模型合成控制法:https://www.zhihu.com/question/43497862贝叶斯结构时间序列模型原创 2021-12-22 12:25:08 · 724 阅读 · 0 评论 -
怎么做用户点击流量链路恢复和行为归因
首先列出几个问题1、怎么找出用户的一条链路2、链路的确定规则3、行为归因链路长度,有效期定义4、实现代码原创 2021-12-22 11:05:27 · 161 阅读 · 0 评论 -
提高去重计数效率——代理键+bitmap去重
提高去重计数效率——代理键+bitmap去重背景方案介绍详细实现附:代理键名词解释代理键何时使用代理键背景现实场景中经常会遇到字符串字段去重计数的场景,常见方式如下:最简单的是count(distinct),性能最差,不推荐group by 后count(1),充分利用分布式并行计算的优点,但是容易遇到数据倾斜,总体上是推荐除了以上两种方式,还可以借助rbm进行去重计数,接下来介绍代理键+rbm的方法方案介绍rbm是bitset的优化,把long型变量分为高32位和低32位分别存放,高32原创 2021-12-20 16:52:28 · 631 阅读 · 0 评论 -
浅谈数据治理方法
谈一下数据治理怎么做数据治理的目的数据治理的方法模型设计(完善度、复用度、规范度、扩展性)功能完善的数据平台数据治理的目的数据治理的目的是要构建更好用的数据仓库,下图为数据仓库好坏的衡量标准数据治理的方法根据上图可知数据治理可以分为以下三个方面入手模型设计(完善度、复用度、规范度、扩展性)-1、建立数据指标字典wiki,将各层(尤其dws) 模型字段和etl流程详细记录下来,可以让使用者通过查阅wiki就能够轻易上手-2、让数仓工程师长期负责若干主题,以提高业务熟悉度。功能完善的数据平台原创 2021-05-26 11:52:55 · 557 阅读 · 0 评论 -
星型模型和雪花型模型比较
星型模型和雪花型模型比较定义说明优缺点对比定义说明根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型星型是维表和事实表可通过字段直接相连,结构如下图雪花型是有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时,其图解就像多个雪花连接在一起,故称雪花模型,结构如下图优缺点对比对比角度星型雪花型查询性能角度不需要多个关联,性能好需要多个关联,性能差模型复杂度角度简单复杂层次结构角度不清晰类似Javaweb后端数据库转载 2021-03-23 11:44:22 · 347 阅读 · 0 评论 -
金融行业数据仓库分层
namefunction操作数据层 ods(或stage,Operational Data Store缩写 )从业务库直接抽取,不做格式转换,相当于线上数据的镜像或是备份明细数据层 dwd (data warehouse details)从ods层抽取数据,做成历史全量全量表,同时会做数据清洗和格式转换汇总数据层 dws(data warehouse summa...原创 2020-02-20 23:41:27 · 880 阅读 · 0 评论 -
hive制作拉链表
制作拉链表step以订单表为例1、 拉取线上mysql订单表以初始化拉链表2、 以后每天仅需要拉取当天创建或者当天更新的数据,放入增量表中3、 拉链表的更新分为两部分part1 增量表中的新增的记录(历史从未出现,即create_time=当天)part2 拉链表left join增量表,获取历史出现当天更新的数据,将历史数据关链insert overwrite order_ch...原创 2020-02-04 17:14:51 · 460 阅读 · 0 评论 -
数据仓库设计流程图
原创 2020-01-11 16:22:46 · 1726 阅读 · 0 评论