自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(29)
  • 资源 (1)
  • 收藏
  • 关注

原创 万字解决Flink|Spark|Hive 数据倾斜

不管再出现分布式计算框架出现数据倾斜问题解决思路如下:很多数据倾斜的问题,都可以用和平台无关的方式解决,比如更好的数据预处理,异常值的过滤等。因此,解决数据倾斜的重点在于对数据设计和业务的理解,这两个搞清楚了,数据倾斜就解决了大部分了。关注这几个方面:数据预处理。解决热点数据:分而治之(第一次打散计算,第二次再最终聚合计算)。业务逻辑方面程序代码层面导致最终只有一个Reduce任务的,需要想到用替代的关键字或者算子去提升Reduce任务数。调参。

2023-12-17 12:44:41 967

原创 面试必看!Flink VS Spark 之内存管理机制详解

动态内存占比,提升内存的合理利用率统一管理Storage和Execution内存,便于调优和维护由于Execution占用Storage内存可不规划,存在Storage内存不够频繁GC的情况。

2023-08-15 19:12:13 285

原创 职场人关于跳槽与工作的建议

大家好,我是老兵。最近在不同信息渠道获悉到很多关于跳槽的动态,有一些想法想和大家聊聊,以下内容仅作个人感想,无关建议。

2023-05-18 21:11:01 243

原创 阿里大数据学习之路数仓篇精读

本期是一期读书笔记分享,我选择的经典书籍是,主要精读其中的数据模型篇。这本书的经典之处我不再赘述。我主要对篇章中的核心知识脉络进行整理,并结合数仓面试考点,希望帮大家在阅读本书时提供重难点梳理和学习思路。

2023-05-18 21:03:43 279

原创 Flink源码精讲系列开篇—源码编译

大家好,我是老兵。五月将开启一个新系列—Flink源码精读。讲解内容以一个运行程序为切入点,剖析Flink任务提交->task任务执行本期为Flink源码精读系列第一期—Flink源码编译,内容包含Flink源码下载、编译,作为精讲系列的开篇。话不多说,我们开始。

2023-05-18 20:58:11 105

原创 【原创肝文】硬核Spark源码剖析第二期:广播变量Broadcast

Spark广播变量底层的实现原理?

2023-01-31 21:12:46 221

原创 大数据笔试之SQL必看篇(电商场景)

大数据笔试SQL之电商篇

2022-12-06 22:27:45 533

原创 大数据笔试必看SQL篇(牛刀小试)

老兵原创大数据笔试必看SQL篇

2022-11-15 22:06:24 1749 2

原创 2万字硬核spark源码精讲手册

spark源码精讲,结合企业级开发和面试实战重点关注内容

2022-10-31 05:45:00 3228 2

原创 2万字50张图玩转Flink面试体系

老兵硬核讲解Flink面试体系~

2022-08-03 21:57:42 561

原创 五万字企业级数仓体系建设手册

五万字企业级数仓搭建

2022-06-19 14:31:17 303

原创 漫画趣解大数据算法建模:买瓜

有一人来买瓜,如何保熟?老兵趣味讲解算法建模

2022-06-13 20:36:10 530 1

原创 万字详解数据质量那些事儿

万字讲解数仓质量体系构建

2022-06-02 09:40:50 364

原创 聊聊数据治理与成本管理

聊聊数据治理那些事

2022-05-26 14:56:49 1104

原创 基于Spark+Grafana可视化电商项目实战,值得收藏~

原创肝文!基于Spark+Grafana可视化电商项目实战

2022-05-25 14:20:54 1663

原创 关于大数据入门建议的那些事

老兵唠唠大数据入门的那些事,很简单也很干货。

2022-05-18 14:32:19 506

原创 我的大数据求职之路【粉丝投稿】

粉丝投稿:我的大数据求职之路

2022-05-10 17:04:09 520

原创 [收藏]基于Spark Graphframes的社交关系图谱项目实战

干货,基于spark graphframes图计算的社交关系图谱

2022-05-05 09:16:00 1038

原创 来拿,腾讯数据开发整理的用户留存分析(超详细)

用户留存怎么做?老兵有话说。

2022-03-05 18:17:45 1817

原创 怎么从0到1构建大厂企业级数仓

企业级数仓搭建,从0到1指导

2022-03-03 07:30:00 1250

原创 通过深挖Clickhouse源码,数据去重精通~

在sql中大数据领域是如何去重的,Clickhouse给你答案

2022-03-02 21:43:05 3616 1

原创 最强Flink算子大全手册,面试拿捏了~

Flink算子大全手册,面试好帮手!

2022-03-01 21:56:08 3820

原创 前同事B站过了三面(Flink方向),要来了面经

大厂面试真题,值得收藏~

2022-02-17 20:56:45 402 1

原创 全网最易懂的Flink背压问题,看不懂你打我~

我是Flink,现在压力好大,我太难了~ Flink背压趣味讲解。

2022-01-30 11:30:00 1101 2

原创 漫画趣解Flink实时数仓

漫画详解Flink实时数仓

2022-01-29 14:39:26 1279

原创 2022一条龙Spark保姆级面试

本文是历时一周整理的Spark保姆级教程。基于面试角度出发,涉及内容有Spark的相关概念、架构原理、部署、调优及实战问题。文中干货较多,希望大家耐心看完。

2022-01-29 14:18:26 2398

原创 万字最全Spark内存管理详解

与数据频繁落盘的`Mapreduce`引擎不同,Spark是基于`内存`的分布式计算引擎,其内置强大的内存管理机制,保证数据`优先内存`处理,并支持数据磁盘存储。

2022-01-29 12:30:11 4726

原创 Flink VS Spark 实时计算Exactly-once一致性

海量数据实时计算:Spark和Flink引擎是如何保证Exactly-Once一致性?

2022-01-29 12:17:15 1234

原创 面试高频|万字详解Flink双流JOIN

最全最肝的Flink双流JOIN面试知识,值得收藏~

2022-01-03 23:02:35 1613

关于arcgis的安装问题

关于arcgis的系统安装,简单实用,想学习arcgis的同志可以看下

2015-08-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除