自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 Flink学习总结

一、flink处理任务流程① 获取执行环境 (Environment)② 加载或者创建数据源(source)③ 转化处理数据(transformation)④ 输出目的端(sink)⑤ 执行任务(execute)

2022-03-03 09:57:51 1040

原创 面筋-数仓SQL

1.连续登录描述:连续登录3天的用户2.停留时长统计描述:超过2min算不在线,统计停留时长uidtmu110:00:05u110:00:10u110:00:15u110:20:00u210:31:00解:分组排序,表自关联,交叉错位相减SELECT a.uid, a.start_tm, a.start_tms, a.rank, (end_tms-start_tms) AS stop_tms, CASE (en

2022-02-28 15:14:25 247

原创 面筋-数仓-知乎

1.Mysql锁几种2.Mysql存储引擎,InnoDb?3.维度表和事实表区分?4.指标体系,指标系统5.原子指标、度量、时间周期的关系6.Flink几种状态7.DorisDB、CK、Hudi,比较,优劣8.python中lamdba,1-100求和,lamdba的优势...

2022-02-21 15:31:21 547

原创 面经-数仓-百度

1.3种排序:row_number和rank,xxxrank的差别rank()就是排序 相同的排序是一样的,但是下一个小的会跳着排序,比如等级 排序23 123 122 3dense_rank()相同的排序相同,下一个小的会紧挨着排序,比如等级 排序23 123 122 2这样总个数是相对减少的,适合求某些指标前几个等级的个数。row_number()就很简单,顺序排序。比如等级 排序23 123 222 3这种排序 总个数是不变的,适合求某些值的前几名。2.order

2021-04-07 23:01:18 152

原创 面经-数仓-贝壳

1.MR的环形缓冲区为什么设计为环形:便于写入缓冲区和写出缓冲区同时进行。详解:https://blog.csdn.net/qq_42158942/article/details/100665384

2021-03-27 22:48:48 99

原创 面经-数仓-高途

1.hive和spark差异,优劣2.sql连续3天登陆3.sql行转列,列转行4.多维度grouping sets5.python装饰器6.数据质量7.sql关联键数据类型不一致,会有什么结果1.flink过程2.druid和其他框架3.ch4.es和mysql和hbase...

2021-03-26 23:46:02 119

原创 python学习

1.python装饰器2.多线程3.工程化:docker镜像k8s部署,yamlpython代码混淆

2021-03-26 23:40:27 53

原创 面经-数仓-头条

1.sql4种以上去重2.sql行转列,不用explode3sql抽样不用sample,按照type字段,每个type抽样5%4.python,有序数组,平方去重后的长度[-1,0,1,2],不用set5.字典排序,按照value排序{a:16,z:2,c:4}—>{a:16,c:4,z:2}6.[[1,2],[2.3],[3,4.5]]—>[1,2,3,4,5] 时间空间复杂度7.多线程...

2021-03-14 23:25:21 203

原创 面经-数仓-快手

面经-数仓-快手1、SQL12、SQL23.大表join优化4.造成数据倾斜的操作,原因,优化1、SQL1select * from t1left join t2 on t1.id=t2.idwhere t1.dt=‘20210310’and t1.channel=t2.channel如果where位置置换,有什么差别。运行效率,和数据量?where放在前,运行效率高,先过滤,或关联。2、SQL2留存:t1:dt user_id 当天活跃用户t2:dt uv uv_1 uv_2 …

2021-03-13 23:05:03 523

原创 Graph Classification Tutorial-图分类

在DGL中实现一个合成数据集data.MiniGCDataset。数据集有八种不同类型的图,每个类都有相同数量的图样本。形成图形小批量为了有效地训练神经网络,通常的做法是将多个样本批处理在一起形成一个小批量。批处理固定形状张量输入是常见的。例如,对大小为28x 28的两个图像进行批处理,得到形状为2x28x28的张量。相比之下,批处理图形输入有两个挑战:图是稀疏的。图可以有不同的长度。例...

2020-04-22 15:54:41 2102

原创 Scala Flink

IDEA环境中Scala 出现–找不到或无法加载主类:pom.xml中scala版本问题

2020-01-17 16:51:42 79

原创 Flink实时处理写入ElasticSearch

参考链接遇到的问题:1.jdk依赖问题2.ES的jdk环境3.head安装问题

2019-12-06 15:00:29 428

原创 kafka学习

producer:bin/kafka-console-producer.sh --broker-list PLAINTEXT://172.17.2.20:9092 --topic testconsumer:bin/kafka-console-consumer.sh --bootstrap-server PLAINTEXT://172.17.2.20:9092 --topic test --fro...

2019-11-12 16:24:01 92

原创 面经:头条-数仓

目录标题头条面经数据仓库头条面经2019-06-16数据仓库星型模型、雪花模型SQL,至少两天内登陆的用户laterview 和 exploded使用map的优化,map个数如何确定group by 和distinct数据倾斜问题、解决小表关联大表...

2019-07-21 21:27:13 265

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除