大数据兵工厂
码龄9年
关注
提问 私信
  • 博客:41,616
    41,616
    总访问量
  • 29
    原创
  • 745,383
    排名
  • 107
    粉丝
  • 0
    铁粉
  • 学习成就

个人简介:大数据领域资深老兵,华为云享专家,任职于互联网大厂,专攻实时计算、数仓、机器学习领域

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2015-08-03
查看详细资料
  • 原力等级
    成就
    当前等级
    3
    当前总分
    367
    当月
    1
个人成就
  • 获得60次点赞
  • 内容获得9次评论
  • 获得336次收藏
  • 代码片获得130次分享
创作历程
  • 6篇
    2023年
  • 23篇
    2022年
成就勋章
TA的专栏
  • 大数据企业级开发
    付费
    4篇
  • 大数据
    29篇
  • 机器学习
    2篇
  • java
兴趣领域 设置
  • Python
    python
  • Java
    java
  • 数据结构与算法
    算法数据结构
  • 大数据
    mysqlhbasehadoophiveredismongodbsparkflumeelasticsearchkafkaflinkkylinhdfsmapreduce数据仓库
  • 人工智能
    数据挖掘机器学习人工智能数据分析scikit-learn分类回归
创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

345人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

万字解决Flink|Spark|Hive 数据倾斜

不管再出现分布式计算框架出现数据倾斜问题解决思路如下:很多数据倾斜的问题,都可以用和平台无关的方式解决,比如更好的数据预处理,异常值的过滤等。因此,解决数据倾斜的重点在于对数据设计和业务的理解,这两个搞清楚了,数据倾斜就解决了大部分了。关注这几个方面:数据预处理。解决热点数据:分而治之(第一次打散计算,第二次再最终聚合计算)。业务逻辑方面程序代码层面导致最终只有一个Reduce任务的,需要想到用替代的关键字或者算子去提升Reduce任务数。调参。
原创
发布博客 2023.12.17 ·
1062 阅读 ·
19 点赞 ·
0 评论 ·
28 收藏

面试必看!Flink VS Spark 之内存管理机制详解

动态内存占比,提升内存的合理利用率统一管理Storage和Execution内存,便于调优和维护由于Execution占用Storage内存可不规划,存在Storage内存不够频繁GC的情况。
原创
发布博客 2023.08.15 ·
380 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

职场人关于跳槽与工作的建议

大家好,我是老兵。最近在不同信息渠道获悉到很多关于跳槽的动态,有一些想法想和大家聊聊,以下内容仅作个人感想,无关建议。
原创
发布博客 2023.05.18 ·
369 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

阿里大数据学习之路数仓篇精读

本期是一期读书笔记分享,我选择的经典书籍是,主要精读其中的数据模型篇。这本书的经典之处我不再赘述。我主要对篇章中的核心知识脉络进行整理,并结合数仓面试考点,希望帮大家在阅读本书时提供重难点梳理和学习思路。
原创
发布博客 2023.05.18 ·
347 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Flink源码精讲系列开篇—源码编译

大家好,我是老兵。五月将开启一个新系列—Flink源码精读。讲解内容以一个运行程序为切入点,剖析Flink任务提交->task任务执行本期为Flink源码精读系列第一期—Flink源码编译,内容包含Flink源码下载、编译,作为精讲系列的开篇。话不多说,我们开始。
原创
发布博客 2023.05.18 ·
134 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【原创肝文】硬核Spark源码剖析第二期:广播变量Broadcast

Spark广播变量底层的实现原理?
原创
发布博客 2023.01.31 ·
276 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据笔试之SQL必看篇(电商场景)

大数据笔试SQL之电商篇
原创
发布博客 2022.12.06 ·
601 阅读 ·
1 点赞 ·
0 评论 ·
7 收藏

大数据笔试必看SQL篇(牛刀小试)

老兵原创大数据笔试必看SQL篇
原创
发布博客 2022.11.15 ·
1899 阅读 ·
1 点赞 ·
2 评论 ·
30 收藏

2万字硬核spark源码精讲手册

spark源码精讲,结合企业级开发和面试实战重点关注内容
原创
发布博客 2022.10.31 ·
3710 阅读 ·
11 点赞 ·
2 评论 ·
44 收藏

2万字50张图玩转Flink面试体系

老兵硬核讲解Flink面试体系~
原创
发布博客 2022.08.03 ·
634 阅读 ·
3 点赞 ·
0 评论 ·
10 收藏

五万字企业级数仓体系建设手册

五万字企业级数仓搭建
原创
发布博客 2022.06.19 ·
326 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

漫画趣解大数据算法建模:买瓜

有一人来买瓜,如何保熟?老兵趣味讲解算法建模
原创
发布博客 2022.06.13 ·
578 阅读 ·
3 点赞 ·
1 评论 ·
3 收藏

万字详解数据质量那些事儿

万字讲解数仓质量体系构建
原创
发布博客 2022.06.02 ·
408 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

聊聊数据治理与成本管理

聊聊数据治理那些事
原创
发布博客 2022.05.26 ·
1210 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

基于Spark+Grafana可视化电商项目实战,值得收藏~

原创肝文!基于Spark+Grafana可视化电商项目实战
原创
发布博客 2022.05.25 ·
1762 阅读 ·
0 点赞 ·
0 评论 ·
20 收藏

关于大数据入门建议的那些事

老兵唠唠大数据入门的那些事,很简单也很干货。
原创
发布博客 2022.05.18 ·
532 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

我的大数据求职之路【粉丝投稿】

粉丝投稿:我的大数据求职之路
原创
发布博客 2022.05.10 ·
549 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

[收藏]基于Spark Graphframes的社交关系图谱项目实战

干货,基于spark graphframes图计算的社交关系图谱
原创
发布博客 2022.05.05 ·
1114 阅读 ·
1 点赞 ·
0 评论 ·
13 收藏

来拿,腾讯数据开发整理的用户留存分析(超详细)

用户留存怎么做?老兵有话说。
原创
发布博客 2022.03.05 ·
1874 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

怎么从0到1构建大厂企业级数仓

企业级数仓搭建,从0到1指导
原创
发布博客 2022.03.03 ·
1434 阅读 ·
0 点赞 ·
0 评论 ·
9 收藏
加载更多