3分钟秒懂大数据-CSDN博客

原创史上最全系列 | 大数据框架知识点汇总（资源分享、还不快拿去）

前言大家好，我是土哥写文章整整五个月了，在这期间写了很多篇高质量文章，每一篇都在 1000+ 阅读以上，为了让各位小伙伴更好的学习和面试，我将自己发表的文章以及未发表的文章全部汇总成一个文档，里面包含了全部的无水印高清图片，具体内容如下：关注公众号：【3分钟秒懂大数据】，回复关键字：【大数据】，进群领取下文全部 PDF 文件。1、大数据学习路线文章硬不硬核，你说了算，土哥怒肝大数据学习路线一条龙！（万字长文+资源分享）上述文章将所有组件的安装包全部都收集好，版本

2021-11-23 00:15:32 5224 36

原创 CDH6.2.0搭建（史上最全的安装教程）

1 集群准备 1 首先准备三台虚拟机，虚拟机ip地址可以ping通。 ip 名称 192.168.63.131 cdh1 192.168.63.132 cdh2 192.168.63.133 cdh3 2 系统环境准备在三台虚拟机上进行网络配置，免密登录、防火墙关闭、selinux关闭...

2020-05-08 23:47:13 20201 66

原创 2022届秋招各大公司面经总结

提问环节问自己没答出的最重要的一个问题（如果都答出来了，就不要问啦）面试官您好：你能具体给我讲讲目前您所在的部门具体负责公司的哪块业务，以及技术栈吗？面试的流程大概是什么样的？通长时间能收到2面或3面通知如果有幸进入公司，是否可以去实习？扩展新知识机器学习了解吗？监督学习和非监督学习有什么区别？分布式集群有哪些了解？ docker有什么了解? 微服务了解吗？ ...

2019-08-25 12:30:05 3637 1

原创 2020-JAVA-大数据-面试汇总

腾讯一面试下 4月6日挂1 自我介绍2 介绍一下你在项目中的承担的任务3 你对哪种语言熟悉4 线程池使用过吧，说说线程池中有哪些关键字具体使用方法。5 说说hashMap 使用的是哪种数据结构，6说说hashMap 和 ConcurrentHashMap 的区别7为啥hashMap是线程不安全的？8锁机制怎么使用的？9如何查看linux 内存占......

2019-07-23 17:25:23 13760 18

原创 mysql5.7.23安装详细过程

1.百度云网盘：https://pan.baidu.com/s/17ci5OcDf-bt10H7r_Hi2pw 提取码：0wmq2下载后可以把解压的内容放到你的安装目录下，我的是在E盘：E:\mysql如下图：此时加压后的文件中没有data目录和ini文件3.在E:\mysql目录下新建my.ini文件，复制如下内容[mysqld]#设置3306端port ...

2018-08-12 13:31:04 47960 27

原创实时数仓实战篇一：长周期去重指标建设

长周期去重是实时数仓的必考题，你在做长周期去重时，遇到过哪些问题？是误差太大？还是资源不够？欢迎在评论区留言

2026-01-24 14:06:28 440 2

原创 3000字全面解析字节2-2数据开发岗位面经（建议收藏！）

刚到 2026 年年初，估计好多小伙伴也在找工作，这里给大家奉献一篇之前小伙伴面试字节的大数据架构师岗位面经

2026-01-12 22:57:15 681

原创第一次见人把大数据杂活表达的如此高级

这里给大家整理了大数据开发 6 大高频工作的简历高级表述，校招社招直接抄作业。

2026-01-12 22:50:18 514

原创离线JOIN优化篇三：双表关联数据倾斜解决方案

JOIN 的空值长尾解决方案虽然处理起来非常简单，但却让运行时间直接从1小时优化到20分钟左右。

2026-01-04 21:48:04 799

原创离线JOIN优化篇二：大表JOIN中表实践，轻松提升性能100%！

大表 Join 中表优化，优化前耗时 45 分钟，JOIN阶段花费 25 分钟，当使用 Distributed Mapjoin 后，优化后总计耗时 23 分钟。

2026-01-03 11:34:40 710

原创离线JOIN优化篇一：大表JOIN小表实践

本文以 LBS 场景中，用户行为日志表（大表）记录了海量用户的位置上报数据（10亿条/天）， POI维度表（小表）包含热门商圈的坐标信息（100万条）。其中某商圈的 POI 被频繁匹配，导致该 Key 的数据在Reduce 阶段出现严重倾斜为例，分享大表 JOIN 小表的性能优化。

2026-01-03 11:21:12 1294

原创史上最全Flink UDF 使用教程，从0到1教你如何学会各种自定义UDF 的使用

在 Flink 中，如果系统自带的函数无法满足业务场景，允许用户自定义 UDF 函数来实现业务逻辑，即 Flink UDF。Flink UDF（User-Defined Function，用户自定义函数）是 Flink 中一种自定义函数的实现方式，用于在 Flink 程序中对输入数据进行处理和转换。UDF 可以用于 Flink SQL 和 Table API 中，也可以在 Flink DataStream 中使用。Flink UDF。

2025-02-19 22:28:18 806 1

原创真的有哥们年前提离职，到底经历了什么？又该如何准备自我介绍？

好多小伙伴面试时，不知道怎么做自我介绍，这里给大家一个模版参考，可以基于如下模版进行改造：面试官，你好，我叫 xx，毕业于 xx 大学，毕业之后分别就职于小红书、饿了么、字节跳动，目前工作经验 8 年，大数据专家岗位；在小红书期间，主要负责 C 端用户行为数据建设，包含穿搭、健身塑性等业务线的数据建模等；2020 年 2 月入职饿了么，负责饿了么优选营销离线、实时数仓建设，基于饿了么优选营销活动的参与情况。对优惠券、红包、促销、现金等营销活动数据整合以及用户补贴策略的相关优化调整。

2025-01-16 12:42:42 647

原创 Tiktok难民纷纷涌入小红书，小红书杀疯了！！！现在想进小红书，都会被问到哪些内容？

大家好，我是土哥，一位被大数据开发耽误的歌手。这两天，小红书的程序员们怕是夜不能寐，白天维护国内环境稳定，到了晚上还得陪着众多漂亮国的网友。这事说来话长，咱们长话短说。由于 TikTok 在美国即将面临禁令，许多美国用户为了避免 Tiktok 被封掉导致账户无法使用，因此他们转向了其他中国社交媒体平台，如小红书, 同时自称为：TikTok Refugee ~这下可不得了了，这两天直接在 APP Store 上面把小红书的下载量干到了第一。

2025-01-14 22:42:26 805

原创本以为PDD挂了，结果开了50万SSP

大家好，我是土哥。2024 届校招已然落下帷幕，互联网大厂为将优秀人才招致麾下，纷纷使出浑身解数。在薪资待遇方面，更是各有千秋。这里给大家分享一位2024届求职的小伙伴，PDD 非技术岗拿到 50w 的 SSP offer~我盆友圈的一个粉丝，之前和土哥交流，说她投递的PDD 上海岗位，从面试完到开奖，中间过了快2个月，本以为都挂了，结果开出了50w，真是高兴了很久。土哥听到这个消息，替她感到非常高兴，校招生，一入职就已经赢到了起跑线，又有多少同学能拿到这个水平呢？

2025-01-13 21:51:59 1155 2

原创腾讯QQ音乐3面总监提问，咋这么有意思~

大家好，我是土哥。之前有位同学，在土哥的辅导下，居然飘了，当腾讯酷我音乐 HR 看完他的简历后，想邀约他面试，他直接一口回绝了。给的理由如下：目前只想面腾讯 QQ 音乐或者腾讯内部的岗位大厂流程已经到 offer 审核阶段了基于上述两个条件，所以暂时放弃面试。当土哥看到他的回复后，问到为啥只想面之类的。他回复：腾讯音乐目前包含酷狗音乐、QQ音乐、酷我音乐，毫无疑问，QQ 音乐占据主导地位，同时酷狗音乐盈利也不错，只有酷我音乐发展曲折，同时入职签合同时，还不是签约腾讯主体，所以不想面~

2025-01-13 15:50:45 339

原创 Flink WebUI 详解【初学者适用】

优质大数据干货，包括但不限于前沿技术、性能调优、面经等文章...

2025-01-07 19:58:20 611

原创《大数据面试通关》（第十四讲）——10 大业务场景 500 个离线实时指标

《大数据面试通关》（第十四讲）重点介绍一下在数仓场景中，10 大业务场景 500 个离线实时指标。

2023-10-22 12:38:39 1184

原创 Spark 大厂面试题

spark大厂高频考点Spark on Yarn 模式有哪些优点

2023-07-25 19:46:32 635

原创 Flink 1.15.0 单独编译 runtime 模块

问题当在业务代码编写时，不可避免会涉及到对 Flink 源码中的一个或几个模块进行频繁更改，更改之后，需要验证代码的准确性，对需要对 Flink 源码进行编译打包。本文以Flink1.15.0 为例：当对 Flink 1.15.0 进行打包编译时，整体编译打包一次需要花费的时间在 30 分钟以上，如果频繁对其中一个模块进行代码修改，频繁打包，这样效率会非常低下。所以最好的解决办法就是：1、先对整体打包，在 flink-dist 添加不需要编译打包的配置项，形成 flink-dist.jar2、对

2022-05-20 11:55:35 1680

原创大数据面试高频点Flink checkpoint 执行流程及优化方案

Flink checkpoint 核心知识点以优化方案，本文主要从以下几方面进行介绍：1 Checkpoint 执行流程2 checkpoint 执行失败问题分析3 非对齐checkpoint 优化方案4 动态调整 buffer 大小5 通用增量快照1 checkpoint 执行流程如上图所示，chechpoint 在执行过程中，可以简化为可以简化为以下四大步：在数据流中插入 checkpoint barrier；每执行到当前算子时，对算子 sta

2022-05-02 15:39:34 1361 2

原创蚂蚁金服—JAVA实现全排列

分享一道蚂蚁金服JAVA实现全排列的代码在这里插入代码片package com.lyz.dataStructure.LeetCode;import java.util.List;import java.util.ArrayDeque;import java.util.ArrayList;import java.util.Deque;public class Solution{ public static void main(String[] args) { int

2022-04-28 14:48:34 1028

原创 4000字全面了解小红书数据平台工程师(实时方向)社招面试内容

大家好，我是土哥。周五晚上过来卷大家了，今天为大家带来一位读者面试小红书的数据平台工程师（实时方向）面经。面试时间：72 分钟面试方向：数据平台工程师（实时方向）面试工具：赛码网面试难度 : ⭐⭐⭐⭐原文链接：小红书数据平台工程师(实时方向)社招面经(附答案)流计算平台面试官：不用自我介绍了，直接介绍一下流计算平台纳尼？好高冷啊！！具体自我介绍请查看： 58同城大数据开发社招面经(附答案)面试官：1 你们的 UDF 是怎么管理的？当自定义 UDF jar 后，如果是

2022-02-21 11:41:26 2488 2

原创 Flink on Yarn 远程 debug 应用提交流程及源码分析

采用flink 1.13.2版本对flink on yarn per-job 模式进行流程分析及源码调试

2021-12-13 10:34:36 3000 6

原创 36 张图详解ElasticSearch 原理+实战知识点

大家好，我是土哥今天为大家带来流计算领域经常使用的组件 ElasticSearch，本文通过原理+实战操教程带领大家快速学会 ElasticSearch 搜索引擎，以下内容全部经过实战操作，可以根据文档进行学习~大纲如下：1 ElasticSearch 概述1.1 全文搜索引擎小伙伴们经常使用 google 或者百度进行搜索内容，在输入框中输入关键字，这个时候，网站会将包含关键字的所有网页返回，大家有没有想过，为什么输入关键字就可以查到结果呢？同时网站上返回的页面内容大多都是一些非结构化

2021-12-06 14:50:27 27538 2

原创全网最好懂的Kafka面试知识点总结大全【图文并茂、更易理解】

整理了一下 Kafka 面试的连环问题，保证你看完后，对 Kafka 有了更深层次的了解。全文总结的 Kafka 题目之间的关联性很强，本文将通过问答 + 图解的形式由浅入深帮助大家进一步学习和理解 Kafka 分布式流式处理平台。全文总计 1 万字、28 个知识点、40 张原理、流程图。提纲如下：正文⭐ 1、什么是 kafka ？Kafka 起初是由 Linkedin 公司采用 Scala 语言开发的一个多分区、多副本且基于ZooK

2021-12-06 10:12:55 1653 9

原创文章硬不硬核，你说了算，土哥怒肝大数据学习路线一条龙！

前言大家好，我是土哥。随着读者数量的不断增加，从8月底到10月中旬，3分钟秒懂大数据公众号粉丝数已经突破7200+。短短几个月，看着越来越多的读者通过我写的文章而关注到该公众号，我好开心，同时也诚惶诚恐，害怕无法持续输出高质量文章，让读者失望。但我知道，只有写出让读者心动的文章，才能得其心，土哥会好好加油，为大家持续输出精品文章的。有读者问我，对于大数据小白或者跨行业者，应该如何学习大数据呢？或者说有什么推荐的书籍或者网站？其实这个我很有心得啦，因为我研究生学的就是大数据与人工智

2021-10-19 14:46:13 1712 1

原创 Flink 1.14.0 内存优化你不懂？跟着土哥走就对了（万字长文+参数调优）

关注微信公众号：3分钟秒懂大数据跟着土哥走，教你秒懂大数据前言大家好，我是土哥。自从写 Flink 系列文章，收到了太多读者的私信，希望我不断更新完善 Flink 专栏，为此，土哥还专门创建了一个文档，用来记录粉丝和读者在使用 Flink 组件时遇到的典型问题。由于 Flink 在大数据流计算中占据非常重要的位置，毫不夸张的说，已经被所有一二线互联网大厂所使用，并且 Flink 组件在 Apache 社区持续占据热...

2021-10-09 10:34:37 3747 7

原创一口气搞懂「Flink Metrics」监控指标和性能优化，全靠这33张图和7千字（建议收藏）

前言大家好，我是土哥。最近在公司做 Flink 推理任务的性能测试，要对 job 的全链路吞吐、全链路时延、吞吐时延指标进行监控和调优，其中要使用 Flink Metrics 对指标进行监控。接下来这篇文章，干货满满，我将带领读者全面了解 Flink Metrics 指标监控，并通过实战案例，对全链路吞吐、全链路时延、吞吐时延的指标进行性能优化，彻底掌握 Flink Metrics 性能调优的方法和 Metrics 的使用。大纲目录如下：1 Flink Metrics 简介Flink Metri

2021-09-30 14:00:31 2536 10

原创 33张图解flink sql应用提交

前言大家好，我是土哥。这已经是我为读者写的第21篇Flink系列文章了。上周有粉丝在群里问，在流计算平台编写完Flink sql后，为什么通过一键提交按钮，就可以将sql提交到yarn集群上面了？由于现在各大厂对业务分层特别清晰，平台方向和底层技术开发会被单独划分，所以好多大数据同学编写完Flink Sql后，只需通过提交按钮将其提交到集群上，对背后的提交原理些许不太清楚。下面土哥将为大家揭开这层神秘的面纱，挖掘Flink Sql背后的提交原理和源码设计。（硬核文章，建...

2021-09-22 12:05:44 2517 8

原创 Flink1.13.2三种方式安装部署

有位Flink初学者问我有没有Flink的安装教程，看到这后，土哥二话不说直接安排上。以下教程全部使用 Flink1.13.2版本，在普通用户下面部署：1、Standalone部署版本要求：版本节点部署方式flink-1.13.2-bin-scala_2.11.tgz192.168.244.129standalone1.1 将软件安装包放入集群中1.2、软件包解压tar -zxvf flink-1.13.2-bin-scala_2.11

2021-09-22 11:49:02 11487 13

原创漫画 | 字节一面：求无重复子串的最长子串

大家好，我是土哥。作为一名大数据算法工程师，需要有一些算法功底，但是学习算法又非常枯燥，冰冷的文字+代码往往使大部分读者在学习算法的道路上半途而废。今天呢，土哥就用漫画+动图的风格让我的读者轻松、愉快的学习算法，毕竟故事今天，小笨猪阿土收到了字节跳动的一面邀请邮件，约定3天后面试。这可把阿土高兴坏了，但是阿土的算法水平比较差，他听说字节跳动每轮面试必考算法，所以心情很忐忑。这个时候，他的好朋友小美猪阿梅来找她玩耍，看到小笨猪闷闷不乐，于是问起了缘由，当得知字节跳动每轮都考

2021-09-13 10:22:23 1416

原创重磅！ | Flink1.14新特性预览

欢迎加博主微信：threeknowbigdata，拉你进大数据群、Flink流计算群大家好，我是土哥。目前在某互联网大厂担任大数据算法工程师。今天在查看Flink源码时，发现Flink1.14修复了很多bug，并且提了很多PR,其中完成了33个重要的新特性及优化。Bug修复可见部分截图：Improvement可见部分截图：新版本预计1-2周之内会发布，下面我将带领大家查看一下 Flink1.14的新特性都有哪些？1、流批一体优化流批一体其实从 Flink 1.9 版本开始就受到持续的关注

2021-09-08 20:12:36 2032 5

原创 Kakfa-Flink-Hive集成原理和实战代码

大家好，我是土哥。目前在某互联网大厂担任大数据算法工程师。今天有位粉丝在群里发信息，问有没有Flink DDL的使用资料，表示自己是为刚入门的学习者。为了让这位粉丝快速学会 Flink DDL 使用步骤，下面我将通过Kafka - Flink -Hive这个案例，讲解一下原理，并附上实战代码。1、Flink-Hive理论1.1、Flink-Hive介绍在Flink 1.11 版本中，社区新增了一大功能是实时数仓，可以通过kafka,将kafka sink端的数据实时写入到Hive中。为实现这

2021-09-07 13:55:35 1304 5

原创 Flink面试大全总结（全文6万字、110个知识点、160张图）

添加作者微信：threeknowbigdata，备注Flink，获取文章PDF版本Hello，各位大数据学习爱好者，我是3分钟秒懂大数据公众号的作者土哥，目前在杭州某互联网大厂担任大数据算法工程师，组内专注于Flink流式计算组件以及AB融合技术，为了让更多朋友更清晰的了解流式计算组件，现在我以面试的方式为大家全面总结了Flink所涉及的知识点，全文总共6万字，涉及各种原理，以及源码分析，图片是一张张绘制而出，欢迎大家进行解读！在互联网行业，我们都知道薪资结构跟岗位存在直接关系，如下面这幅关..

2021-08-31 10:47:20 2666 8

原创 Flink-yarn-session集群提交模式

2021-08-24 18:47:28 1231

原创史上最完整的AirFlow2.1.2版本安装教程

hello，大家好，我是阿周，上周我们讲解了AirFlow的一些基本概念，请看文章：学会AirFlow调度工作流平台，让你告别加班，老板还会升值加薪，但是只知道理论知识是不行的，所以接下来我将带领大家一块安装部署，通过实战学会airflow。1、Anaconda环境准备由于Airflow2.1.2版本依赖于python3高阶版本，但是服务器中一般默认python2.7.5版本，如下图：所以，我们直接通过部署miniconda,创建虚拟python3环境就可以满足airflow的要求。1.

2021-08-17 11:45:25 3542 9

原创 14天算法入门-第2天-双指针

关注并标星微信公众号3分钟秒懂大数据每天1次，打卡阅读获取AI大数据技术、面经、内推信息1、题目介绍：给你一个按非递减顺序排序的整数数组nums，返回每个数字的平方组成的新数组，要求也按非递减顺序排序。2、示例如下：3、解题思路：我们可以使用两个指针分别指向位置 0和 n-1，每次比较两个指针对应的数，选择较大的那个逆序放入答案并移动指针。这种方法无需处理某一指针移动至边界的情况，读者可以仔细思考其精髓所在。4、代码如下...

2021-08-14 11:20:21 854

原创 14天算法入门-第1天-二分查找

Hello,各位小伙伴，我们都知道，在求职阶段，算法被作为大厂面试的一个核心考点，本阶段我将带领大家通过14天执行一个算法入门计划，具体内容如下：算法入门：第1天：二分查找第2天：双指针第3天：双指针第4天：双指针第5天：双指针第6天：滑动窗口第7天：广度优先搜索 / 深度优先有搜索第8天：广度优先搜索 / 深度优先有搜索...

2021-08-14 11:07:51 865

原创 Spark-SQL绑定原理深入分析

上一篇文章Spark-SQL解析原来如此简单讲到了Spark-SQL通过Antlr4生成未解析的LogicalPlan。此时的LogicalPlan是Unresolve的，需要通过Catalog来绑定UnresolvedRelation 和UnresolvedAttribute，生成解析后的LogicalPlan。在Spark-SQL中，Catalog主要用于各种函数资源信息和元数据信息（数据库、数据表、数据视图、数据分区与函数等）的统一管理。Spark-SQL中的Catalog体系...

2021-08-14 11:01:20 1381 1

flink-cep未发生算子设计方案

使用pyspark将csv文件转为parquet文件

flink-sql-connector-kafka_2.11-1.12.0.jar

kernel-headers-3.10.0-957.el7.x86_64.zip

Home_Credit_new_0.7849_246008_495.pmml

Ray技术分享总结以及核心技术点讲解

大数据组件和人工智能总结.zip

ray Forward 2021 ppt

cifar100(20个任务)测试结果

cifar100-imagenet

空空如也