数据仓库三千问，P8大佬武哥直播一一解答

最新推荐文章于 2022-07-18 15:58:36 发布

小晨说数据

最新推荐文章于 2022-07-18 15:58:36 发布

阅读量303

点赞数

文章标签：数据仓库大数据编程语言 java hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huzechen/article/details/109475743

版权

1.

做数据人，不做打工人

怎么帮助数据仓库的人员快速成长？

刚开始接触数据仓库，或者工作1-2年的新手，大家肯定会遇到各种困难和疑惑，这就需要一个有丰富经验的数仓工作者帮着大家解惑答疑，武哥这边每周都会开设免费公开课，课程主题群内粉丝自选，你们不会什么，咱们就讲什么。

▍武哥介绍

武哥工作8年，从月入2000，到年薪百万，从新程序员小白逐渐进入了中小管理者。

武哥优点：

武哥酷爱健身，正是因为痴迷于健身和学习，武哥至今还是单身，希望通过公众号可以替武哥征婚，有感觉武哥不错的，可以帮着介绍一下身边优质的妹子，武哥要求不高，只要是活的就可以。
武哥声音好听
有责任心
爱交朋友，在群内非常喜欢交流，有人问他问题，看到必答。
喜欢健身的人，比较自律，我看武哥的家，都是跟五星级酒店一样，非常整洁，干净。

▍问提梳理

数仓分层，每层分别建不同的数据库（每一层使用各种的库）还是各个层在一个数据库里使用前缀区分
做大宽表时，各个维度表字段是否都需要加在大宽表上
用户画像的行为画像一般怎么做比较好，使用工具定义规则生成还是手动sql统计指标做为行为标签
实时数仓技术架构实现
怎么核对指标的准确性，怎么做数据质量
客户端埋点体系的架构实现
服务端埋点一般有哪些
nginx日志、客户端埋点日志、服务端埋点日志、mysql binlog日志，一般怎么搭配使用
数仓表数据一般保留多久，而每个日期分区全量表快照表一般保留多久
各个部门数据零散,使用数据遇到障碍
因为数据口径问题,定义问题，导致分析人员不断的在核对数据和查询数据，增加重复工作量，减少了分析效率
大家都着急做业务需求,忙着产出任务,导致任务越来越多,只上不下
数仓模型不合理性太多，数据重复计算较多
数据出不来，影响决策
单表单日全量快照千万，亿级别，在存储有限的前提下，如何优化明细层存储，离线抽数时间
源系统mysql随着业务增长压力大，分库分表，数仓如何抽数整合
非结构化数据xml json格式入仓进行清洗结构化数据，原非结构化数据动态变化不定期新增，数仓有啥好的方案
数据安全，敏感数据确认标准，常用处理方法，一般在数仓哪层操作，身份证号，手机号加密后，业务分析进行撞库匹配，如何加密
数据常见分级标准
数仓表常见存储格式，orc还是parquet更优，不同层次存储格式是否一致，ods是否可以用textfile
数仓构建表方式采用外部表还是内部表更优
数仓分区表常用分区字段，按日分区10位好还是8位日期
数仓常见表格式，增量表，全量表，快照表，大厂用拉链的表的多，有啥特定应用场景
标签体系，指标体系构建在数仓哪层
数据漂移常见处理方法
数据入仓，常做哪些校验
目标公司数仓离线是sqoop多，还是读取binlog落hdfs多
离线数仓跑批目前公司基于mr tez spark哪个更多。
说说维度建模？解释下什么是维度表和事实表？事实表有哪几类，分别统计什么数据？
说说外部表和内部表？区别是什么？你们公司怎么使用这两类表的？
a，b两张表id关联，a表id字段int类型，b表string，如果id字段包含纯数字和字符串类型，在join的过程是怎么样的，会出现数据倾斜吗？如何产生的？
a，b两张表都是dt分区，通过id做full join，b表有数据不在a表，这时插入动态分区为dt表的时候dt字段应该处理才能保证数据插入准确？
实际业务场景中数据倾斜如何处理的，请举例说明大表和大表数据倾斜，大表和小表数据倾斜的处理方式。
Flink SQL中嵌套Json怎么处理
Flink双流Join延迟怎么处理，比如激活流与激活信息流，激活信息流一般延后激活流1s
Flink大数据量按天实时去重计算UV(每天百亿)优化思路，开放性
4.flink checkpoint的步骤
Spark的join类型，以及区别
Spark 2.x小文件怎么处理

推荐阅读武哥原创：

进武哥交流群加武哥助理：vx（喜欢学习的来哈）

公众号回复：“资料全集”，海量PPT等你来拿。

小晨说数据

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

小晨说数据

CSDN认证博客专家 CSDN认证企业博客

码龄8年

71: 原创

4万+: 周排名

9万+: 总排名

48万+: 访问

: 等级

4154: 积分

600: 粉丝

188: 获赞

89: 评论

1674: 收藏

私信

关注

热门文章

分类专栏

最新评论

AI音乐神器Suno，你听说过吗？可以帮你创作版权音乐变现。
雾霾864: 必须要会员才是自己的版权还是不用会员也是自己的版权
【Doris全面解析】Doris Compaction机制解析
shy_snow: 如果查询中进行compaction,将原本要读的数据compaction了,会影响导致查询异常吗?
如何申请 Midjourney API ，一文教会你，欢迎收藏
游戏泥瓦匠: 这是第三方自己包装的吧，midjourney官方说明：Midjourney does not provide an API to access the bot through third-party apps or scripts, and automating interactions with the Midjourney Bot is strictly prohibited according to our Terms of Service. Accounts who do not comply with these rules may be blocked.
如何申请 Midjourney API ，一文教会你，欢迎收藏
游戏泥瓦匠: 这是中间包装的吧，midjourney官方明确说明了，没有api：Midjourney does not provide an API to access the bot through third-party apps or scripts, and automating interactions with the Midjourney Bot is strictly prohibited according to our Terms of Service. Accounts who do not comply with these rules may be blocked.
如何申请 Midjourney API ，一文教会你，欢迎收藏
2301_79032138: 这个有免费的 https://blog.csdn.net/2301_79032138/article/details/131587126?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22131587126%22%2C%22source%22%3A%222301_79032138%22%7D

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。