大数据兵工厂-CSDN博客

自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

原创万字解决Flink|Spark|Hive 数据倾斜

不管再出现分布式计算框架出现数据倾斜问题解决思路如下：很多数据倾斜的问题，都可以用和平台无关的方式解决，比如更好的数据预处理，异常值的过滤等。因此，解决数据倾斜的重点在于对数据设计和业务的理解，这两个搞清楚了，数据倾斜就解决了大部分了。关注这几个方面：数据预处理。解决热点数据：分而治之(第一次打散计算，第二次再最终聚合计算)。业务逻辑方面程序代码层面导致最终只有一个Reduce任务的，需要想到用替代的关键字或者算子去提升Reduce任务数。调参。

2023-12-17 12:44:41 1121

原创面试必看！Flink VS Spark 之内存管理机制详解

动态内存占比，提升内存的合理利用率统一管理Storage和Execution内存，便于调优和维护由于Execution占用Storage内存可不规划，存在Storage内存不够频繁GC的情况。

2023-08-15 19:12:13 486

原创职场人关于跳槽与工作的建议

大家好，我是老兵。最近在不同信息渠道获悉到很多关于跳槽的动态，有一些想法想和大家聊聊，以下内容仅作个人感想，无关建议。

2023-05-18 21:11:01 585

原创阿里大数据学习之路数仓篇精读

本期是一期读书笔记分享，我选择的经典书籍是，主要精读其中的数据模型篇。这本书的经典之处我不再赘述。我主要对篇章中的核心知识脉络进行整理，并结合数仓面试考点，希望帮大家在阅读本书时提供重难点梳理和学习思路。

2023-05-18 21:03:43 402

原创 Flink源码精讲系列开篇—源码编译

大家好，我是老兵。五月将开启一个新系列—Flink源码精读。讲解内容以一个运行程序为切入点，剖析Flink任务提交->task任务执行本期为Flink源码精读系列第一期—Flink源码编译，内容包含Flink源码下载、编译，作为精讲系列的开篇。话不多说，我们开始。

2023-05-18 20:58:11 165

原创【原创肝文】硬核Spark源码剖析第二期：广播变量Broadcast

Spark广播变量底层的实现原理？

2023-01-31 21:12:46 317

原创大数据笔试之SQL必看篇（电商场景）

大数据笔试SQL之电商篇

2022-12-06 22:27:45 646

原创大数据笔试必看SQL篇(牛刀小试)

老兵原创大数据笔试必看SQL篇

2022-11-15 22:06:24 1995 2

原创 2万字硬核spark源码精讲手册

spark源码精讲，结合企业级开发和面试实战重点关注内容

2022-10-31 05:45:00 3998 4

原创 2万字50张图玩转Flink面试体系

老兵硬核讲解Flink面试体系~

2022-08-03 21:57:42 687

原创五万字企业级数仓体系建设手册

五万字企业级数仓搭建

2022-06-19 14:31:17 345

原创漫画趣解大数据算法建模：买瓜

有一人来买瓜，如何保熟？老兵趣味讲解算法建模

2022-06-13 20:36:10 628 1

原创万字详解数据质量那些事儿

万字讲解数仓质量体系构建

2022-06-02 09:40:50 453

原创聊聊数据治理与成本管理

聊聊数据治理那些事

2022-05-26 14:56:49 1298

原创基于Spark+Grafana可视化电商项目实战，值得收藏~

原创肝文！基于Spark+Grafana可视化电商项目实战

2022-05-25 14:20:54 1876

原创关于大数据入门建议的那些事

老兵唠唠大数据入门的那些事，很简单也很干货。

2022-05-18 14:32:19 561

原创我的大数据求职之路【粉丝投稿】

粉丝投稿：我的大数据求职之路

2022-05-10 17:04:09 582

原创 [收藏]基于Spark Graphframes的社交关系图谱项目实战

干货，基于spark graphframes图计算的社交关系图谱

2022-05-05 09:16:00 1226 1

原创来拿，腾讯数据开发整理的用户留存分析（超详细）

用户留存怎么做？老兵有话说。

2022-03-05 18:17:45 1971

原创怎么从0到1构建大厂企业级数仓

企业级数仓搭建，从0到1指导

2022-03-03 07:30:00 1556

原创通过深挖Clickhouse源码，数据去重精通~

在sql中大数据领域是如何去重的，Clickhouse给你答案

2022-03-02 21:43:05 3848 1

原创最强Flink算子大全手册，面试拿捏了~

Flink算子大全手册，面试好帮手！

2022-03-01 21:56:08 4070

原创前同事B站过了三面(Flink方向)，要来了面经

大厂面试真题，值得收藏~

2022-02-17 20:56:45 476 1

原创全网最易懂的Flink背压问题，看不懂你打我~

我是Flink，现在压力好大，我太难了~ Flink背压趣味讲解。

2022-01-30 11:30:00 1337 2

原创漫画趣解Flink实时数仓

漫画详解Flink实时数仓

2022-01-29 14:39:26 1342

原创 2022一条龙Spark保姆级面试

本文是历时一周整理的Spark保姆级教程。基于面试角度出发，涉及内容有Spark的相关概念、架构原理、部署、调优及实战问题。文中干货较多，希望大家耐心看完。

2022-01-29 14:18:26 2542

原创万字最全Spark内存管理详解

与数据频繁落盘的`Mapreduce`引擎不同，Spark是基于`内存`的分布式计算引擎，其内置强大的内存管理机制，保证数据`优先内存`处理，并支持数据磁盘存储。

2022-01-29 12:30:11 5245

原创 Flink VS Spark 实时计算Exactly-once一致性

海量数据实时计算：Spark和Flink引擎是如何保证Exactly-Once一致性？

2022-01-29 12:17:15 1344

原创面试高频|万字详解Flink双流JOIN

最全最肝的Flink双流JOIN面试知识，值得收藏~

2022-01-03 23:02:35 1902

关于arcgis的安装问题

关于arcgis的系统安装，简单实用，想学习arcgis的同志可以看下

2015-08-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除