自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 数据仓库:Doris 经常聊的话题

Master根据数据的大小和均衡策略,将数据分片分配给不同的TabletServer,并监控各个TabletServer负载情况,动态调整数据的分片和迁移,以实现负载均衡。Doris通过将数据分片存储到不同的Tablet Server上,并由Master进行元数据管理和负载均衡来实现数据分片和负载的均衡。分桶:分区内部进一步的数据分布方式,通过哈希分布数据到不同的bucket,可以实现数据并行处理,加速查询。FE:前端服务节点,管理元数据,处理用户请求,进行查询跌幅和负载均衡。分区:和其他传统数据库类似。

2024-09-22 21:02:07 129

原创 数据仓库架构的发展(浅谈)

kappa架构:流批一套系统,系统相对简单,但对大量处理历史数据不可行,中间件(一般都用kafka)缓存的数据量和回溯数据会有性能瓶颈,擅长对业务增量数据进行处理。湖仓一体:结合了数据仓库和数据湖,适合数据量较大,各种数据类型混合存储的结构,但实际应用怎么样,没有做过多的探究,不好评论。lambda:批处理一套和流处理一套,需要维护两套系统,就是两套相对地复杂和维护成本高。

2024-09-22 17:10:09 224

原创 4.数据仓库:数据治理

数据治理,每个公司都谈了又谈。都是自上而下,从一个局部点出发来做的,系统介绍下治理包含下面这些方面,每一个点,都可以考虑从以下方面切入。血缘关系元系统,表元数据,指标元数据,调度元数据。数据存储周期,使用频率,指标生命周期。命名规范,开发规范,调度规范等等。角色授权,隐私管理,审计标准。

2024-09-19 19:26:33 184

原创 6.数据仓库:评价数仓

需求流程,开发流程,上线流程,运维,下线。数仓作的如何,一般也是从以下几点来看。准确性,稳定性,及时性。

2024-09-18 20:30:22 281

原创 2.数据仓库:数据建模

1)业务过程:分为哪几个业务域,各个域的流程,及之间的衔接关系。2)需求调研:与业务,分析师,领导之间沟通聊,需求应用。建模是大家经常聊的话题。

2024-09-17 22:58:43 126

原创 5.数据仓库:优化

f.表结构设计:单分区,双分区,增量处理数据,这个与模型也有关系。b.大作业拆小作业: 一个脚本有几千行代码,需要拆分到小作业。c. Group by 代替count dinstinct。a.倾斜优化:每个公司最常见的,处理方法不详谈了。b.需求的生命周期及随着业务发展,优先级。说些通用的,遇到比较严重或者频次比较高的。d.大数据量,避免笛卡尔积,用。a.核心作业优先级,错峰跑。e.小表join大表的广播。

2024-09-17 22:32:23 140

原创 3.数据仓库:数据价值体系

c. 搜索排序:由数仓提供,比如:商品订单量,下单人数,销售额,UV,好评等指标。b. 算法:推荐分为模型和规则指标,规则指标:统一由数仓提供。f. 临时数据需求:奖励金需求,CXO对外的数据宣传等等。从不同维度来看,主要由以下方面,来体现数据价值体系。e.公司级别数据产品:这个比较多了,各个公司不相同。不可量化的:其他就是预估或者能节省人力时效等等。群机器人消息(文字/图表)/邮件报表。量化的:推荐链路,可追踪的,可以量化。d.线上看板数据:各个项目,线上看板。a.内部报表数据:最基础的数仓功能。

2024-09-17 22:22:43 175

原创 1.数据仓库:数据质量

开发环节:模型评审,代码评审(ETL规范和调度规范),自测(准确性和性能测试)数据质量是数仓建设的必聊的话题,聊聊自己的一些心得,有不到之处,请多多指出。上线:大多数都只有线上环境的,需要开发线上再测试和用户验收。b:基线作业,要有电话通知,作业优先级配置,预计出数时间和时长监控。a. 上线流程及各个流程节点所要遵守的规范,这是要自上而下去推行的。a:作业监控和指标监控,时长监控,预计出数时间。3)事后:事情发生了,如何去避免后续问题的发生。a.线上问题,分类,分级汇总,归档。分为事前,事中,事后。

2024-09-17 22:12:05 240

原创 数据仓库经常聊的话题

1.数据质量2.数据建模3.数据价值体系4.优化5.评价数仓。

2024-09-17 22:01:11 99

原创 Hive sql 7:取最近商品ID不同的供货价

按id排序,取商品id不同的价格的last_supply_amt。比较传统的实现方法,有更合适的可以分享。

2024-09-17 11:07:40 445

原创 Hive sql 8:达到指定登陆用户数的日期

思路:开窗累加,然后取整数部分,作为分组,升序,取第一个,样式如下。公司作了一系列广告投放活动,引流c,现在看达到10W的时间节点。

2024-09-17 10:52:24 287

原创 Hive sql 9:展开范围内的数据,不使用笛卡尔积

思路:不用笛卡尔积,用posexplode 炸开,start_id +下标。(IP地址最后需要16进制转换,不在此讨论范围内)可用作日常场景的优化,避免cross join。以前工作中,把IP地址展开,展到每个ip。

2024-09-17 10:32:13 169

原创 Hive sql 10:打折日期交叉问题

这个题思路比较好,可以学习下如下为平台商品促销数据:字段为品牌,打折开始日期,打折结束日期计算每个品牌总的打折销售天数,注意其中的交叉日期,比如 vivo 品牌,第一次活动时间为 2021-06-05 到 2021-06-15,第二次活动时间为 2021-06-09 到 2021-06-21 其中 9 号到 15 号为重复天数,只统计一次,即 vivo 总打折天数为 2021-06-05 到 2021-06-21 共计 17 天。

2024-09-16 21:12:08 436

原创 Hive sql 6:行转列及列转行

c.在regexp_replace用替换,'\\d+\:'a. 按指定顺序排序,用rn拼下,做前缀。1) 以前做项目中有用到,这是通用的解法。b. 用sort_array。值的行到同一个reducer,2) 熟悉mr的原理,用第2种。延伸下,集合中保证日期的有序。启动多个mr,顺序会有问题。

2024-09-16 20:40:01 823

原创 Hive sql 5:去除最高和最低

问题2:延伸题,去除最高的20%和最低的20%部分。用ntile开窗,切5片。问题1:去除最高和最低。

2024-09-16 20:10:21 404

原创 Hive sql 4:中位数

中位数是一种位置平均数,它是按顺序排列的一组数据中居于中间位置的数,能够将数值集合划分为相等的上下两部分。中位数不受数据中极端值的影响,具有较强的代表性,通常用于描述一组数据的中心趋势‌。‌是统计学中的一个重要概念,它代表将一组数据按照大小排序后位于中间位置的数值。偶数的话就是,rn_asc-rn_desc in (1,-1)奇数时,升序数>=总数/2,降序数>=总数/2 这两个值相等。偶数时,升序数>=总数/2,降序数>=总数/2。如果是偶数的话,就是n/2, n/2+1。正序排列和倒序排列,

2024-09-16 19:54:55 936

原创 Hive sql 3:最大在线粉丝数

粉丝观看视频,进入观看,离开,求哪个时间点观看人数最多及对应的最大的观看数。a.以前作过订单的支付,取消,售后相关的需求,就会有对应的思路。b. 类似的,一个用户同一个时间,有观看和未观看。支付的话,就+,取消了,就-,售后的就+观看给1,未观看给-1,

2024-09-16 12:42:48 661

原创 Hive sql 2:最大连续/间隔登陆天数

求每个用户最大的连续登陆天数user_id login_date 1001 2024-08-01 1001 2024-08-03 1002 2024-08-01 1002 2024-08-02 1002 2024-08-03 1001 2024-08-07 1001 2024-08-08 1001 2024-08-09 1001 2024-08-10 思路:1.按用户登陆日期升序

2024-09-16 12:18:21 576

原创 经典Hive sql题汇总

1.(Hive-sql)留存及连续留存2.(Hive-sql)最大登陆天数3.(Hive-sql)最大在线粉丝数4.(Hive-sql)中位数(多种求法)5.(Hive-sql)去除最高和最低6.(Hive-sql)行转列及列转行7.(Hive-sql)取最近不同的播价8.(Hive-sql)达到指定节点的日期

2024-09-16 12:01:14 534

原创 Hive sql 1:留存及连续留存

留存3天的,升序后,下三个日期是当前日期+3。2).当前日期和下一次登陆的日期比差值,思路:1).取每个用户下一次登陆的日期,用lead开窗。思路:1)留存1天的,升序后,下一个日期是当前日期+1。1.每天1天内登陆,3天内登陆的用户数。2 连续留存1,3,7天的用户数。数据如下:用户ID及登陆日期。

2024-09-16 11:42:27 669

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除