1.
做数据人,不做打工人
怎么帮助数据仓库的人员快速成长?
刚开始接触数据仓库,或者工作1-2年的新手,大家肯定会遇到各种困难和疑惑,这就需要一个有丰富经验的数仓工作者帮着大家解惑答疑,武哥这边每周都会开设免费公开课,课程主题群内粉丝自选,你们不会什么,咱们就讲什么。
▍武哥介绍
武哥工作8年,从月入2000,到年薪百万,从新程序员小白逐渐进入了中小管理者。
武哥优点:
武哥酷爱健身,正是因为痴迷于健身和学习,武哥至今还是单身,希望通过公众号可以替武哥征婚,有感觉武哥不错的,可以帮着介绍一下身边优质的妹子,武哥要求不高,只要是活的就可以。
武哥声音好听
有责任心
爱交朋友,在群内非常喜欢交流,有人问他问题,看到必答。
喜欢健身的人,比较自律,我看武哥的家,都是跟五星级酒店一样,非常整洁,干净。
▍问提梳理
数仓分层,每层分别建不同的数据库(每一层使用各种的库)还是各个层在一个数据库里使用前缀区分
做大宽表时,各个维度表字段是否都需要加在大宽表上
用户画像的行为画像一般怎么做比较好,使用工具定义规则生成还是手动sql统计指标做为行为标签
实时数仓技术架构实现
怎么核对指标的准确性,怎么做数据质量
客户端埋点体系的架构实现
服务端埋点一般有哪些
nginx日志、客户端埋点日志、服务端埋点日志、mysql binlog日志,一般怎么搭配使用
数仓表数据一般保留多久,而每个日期分区全量表快照表一般保留多久
各个部门数据零散,使用数据遇到障碍
因为数据口径问题,定义问题,导致分析人员不断的在核对数据和查询数据,增加重复工作量,减少了分析效率
大家都着急做业务需求,忙着产出任务,导致任务越来越多,只上不下
数仓模型不合理性太多,数据重复计算较多
数据出不来,影响决策
单表单日全量快照千万,亿级别,在存储有限的前提下,如何优化明细层存储,离线抽数时间
源系统mysql随着业务增长压力大,分库分表,数仓如何抽数整合
非结构化数据xml json格式入仓进行清洗结构化数据,原非结构化数据动态变化不定期新增,数仓有啥好的方案
数据安全,敏感数据确认标准,常用处理方法,一般在数仓哪层操作,身份证号,手机号加密后,业务分析进行撞库匹配,如何加密
数据常见分级标准
数仓表常见存储格式,orc还是parquet更优,不同层次存储格式是否一致,ods是否可以用textfile
数仓构建表方式采用外部表还是内部表更优
数仓分区表常用分区字段,按日分区10位好还是8位日期
数仓常见表格式,增量表,全量表,快照表,大厂用拉链的表的多,有啥特定应用场景
标签体系,指标体系构建在数仓哪层
数据漂移常见处理方法
数据入仓,常做哪些校验
目标公司数仓离线是sqoop多,还是读取binlog落hdfs多
离线数仓跑批目前公司基于mr tez spark哪个更多。
说说维度建模?解释下什么是维度表和事实表?事实表有哪几类,分别统计什么数据?
说说外部表和内部表?区别是什么?你们公司怎么使用这两类表的?
a,b两张表id关联,a表id字段int类型,b表string,如果id字段包含纯数字和字符串类型,在join的过程是怎么样的,会出现数据倾斜吗?如何产生的?
a,b两张表都是dt分区,通过id做full join,b表有数据不在a表,这时插入动态分区为dt表的时候dt字段应该处理才能保证数据插入准确?
实际业务场景中数据倾斜如何处理的,请举例说明大表和大表数据倾斜,大表和小表数据倾斜的处理方式。
Flink SQL中嵌套Json怎么处理
Flink双流Join延迟怎么处理,比如激活流与激活信息流,激活信息流一般延后激活流1s
Flink大数据量按天实时去重计算UV(每天百亿)优化思路,开放性
4.flink checkpoint的步骤
Spark的join类型,以及区别
Spark 2.x小文件怎么处理
推荐阅读武哥原创:
进武哥交流群加武哥助理:vx(喜欢学习的来哈)
公众号回复:“资料全集”,海量PPT等你来拿。