- 博客(14)
- 收藏
- 关注
原创 Flink学习总结
一、flink处理任务流程① 获取执行环境 (Environment)② 加载或者创建数据源(source)③ 转化处理数据(transformation)④ 输出目的端(sink)⑤ 执行任务(execute)
2022-03-03 09:57:51 1073
原创 面筋-数仓SQL
1.连续登录描述:连续登录3天的用户2.停留时长统计描述:超过2min算不在线,统计停留时长uidtmu110:00:05u110:00:10u110:00:15u110:20:00u210:31:00解:分组排序,表自关联,交叉错位相减SELECT a.uid, a.start_tm, a.start_tms, a.rank, (end_tms-start_tms) AS stop_tms, CASE (en
2022-02-28 15:14:25 270
原创 面筋-数仓-知乎
1.Mysql锁几种2.Mysql存储引擎,InnoDb?3.维度表和事实表区分?4.指标体系,指标系统5.原子指标、度量、时间周期的关系6.Flink几种状态7.DorisDB、CK、Hudi,比较,优劣8.python中lamdba,1-100求和,lamdba的优势...
2022-02-21 15:31:21 576
原创 面经-数仓-百度
1.3种排序:row_number和rank,xxxrank的差别rank()就是排序 相同的排序是一样的,但是下一个小的会跳着排序,比如等级 排序23 123 122 3dense_rank()相同的排序相同,下一个小的会紧挨着排序,比如等级 排序23 123 122 2这样总个数是相对减少的,适合求某些指标前几个等级的个数。row_number()就很简单,顺序排序。比如等级 排序23 123 222 3这种排序 总个数是不变的,适合求某些值的前几名。2.order
2021-04-07 23:01:18 179
原创 面经-数仓-贝壳
1.MR的环形缓冲区为什么设计为环形:便于写入缓冲区和写出缓冲区同时进行。详解:https://blog.csdn.net/qq_42158942/article/details/100665384
2021-03-27 22:48:48 186
原创 面经-数仓-高途
1.hive和spark差异,优劣2.sql连续3天登陆3.sql行转列,列转行4.多维度grouping sets5.python装饰器6.数据质量7.sql关联键数据类型不一致,会有什么结果1.flink过程2.druid和其他框架3.ch4.es和mysql和hbase...
2021-03-26 23:46:02 137
原创 面经-数仓-头条
1.sql4种以上去重2.sql行转列,不用explode3sql抽样不用sample,按照type字段,每个type抽样5%4.python,有序数组,平方去重后的长度[-1,0,1,2],不用set5.字典排序,按照value排序{a:16,z:2,c:4}—>{a:16,c:4,z:2}6.[[1,2],[2.3],[3,4.5]]—>[1,2,3,4,5] 时间空间复杂度7.多线程...
2021-03-14 23:25:21 224
原创 面经-数仓-快手
面经-数仓-快手1、SQL12、SQL23.大表join优化4.造成数据倾斜的操作,原因,优化1、SQL1select * from t1left join t2 on t1.id=t2.idwhere t1.dt=‘20210310’and t1.channel=t2.channel如果where位置置换,有什么差别。运行效率,和数据量?where放在前,运行效率高,先过滤,或关联。2、SQL2留存:t1:dt user_id 当天活跃用户t2:dt uv uv_1 uv_2 …
2021-03-13 23:05:03 570
原创 Graph Classification Tutorial-图分类
在DGL中实现一个合成数据集data.MiniGCDataset。数据集有八种不同类型的图,每个类都有相同数量的图样本。形成图形小批量为了有效地训练神经网络,通常的做法是将多个样本批处理在一起形成一个小批量。批处理固定形状张量输入是常见的。例如,对大小为28x 28的两个图像进行批处理,得到形状为2x28x28的张量。相比之下,批处理图形输入有两个挑战:图是稀疏的。图可以有不同的长度。例...
2020-04-22 15:54:41 2147
原创 kafka学习
producer:bin/kafka-console-producer.sh --broker-list PLAINTEXT://172.17.2.20:9092 --topic testconsumer:bin/kafka-console-consumer.sh --bootstrap-server PLAINTEXT://172.17.2.20:9092 --topic test --fro...
2019-11-12 16:24:01 107
原创 面经:头条-数仓
目录标题头条面经数据仓库头条面经2019-06-16数据仓库星型模型、雪花模型SQL,至少两天内登陆的用户laterview 和 exploded使用map的优化,map个数如何确定group by 和distinct数据倾斜问题、解决小表关联大表...
2019-07-21 21:27:13 286
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人