- 博客(25)
- 资源 (1)
- 收藏
- 关注
原创 你问我DataX是谁?对不起,我活在Apache SeaTunnel的时代!
点击上方蓝色字体,选择“设为星标”回复”面试“获取更多惊喜SeaTunnel正式通过世界顶级开源组织Apache软件基金会的投票决议,以全票通过的优秀表现正式成为Apache孵化器项目!图...
2021-12-31 17:15:06 4799 4
转载 【Spark重点难点-面试篇】SparkSQL面试专题
点击上方蓝色字体,选择“设为星标”回复”面试“获取更多惊喜本文已经加入「大数据成神之路PDF版」中提供下载。你可以关注公众号,后台回复:「PDF」即可获取。更多PDF下载可以参考:《重磅...
2021-12-28 08:30:00 816
原创 Flink1.14.2发布,除了log4j漏洞你还需要关注什么?
点击上方蓝色字体,选择“设为星标”回复”面试“获取更多惊喜本文已经加入「大数据成神之路PDF版」中提供下载。你可以关注公众号,后台回复:「PDF」即可获取。更多PDF下载可以参考:《重磅...
2021-12-24 22:20:01 1834
原创 Spark3.0核心调优参数小总结
点击上方蓝色字体,选择“设为星标”回复”面试“获取更多惊喜本文已经加入「大数据成神之路PDF版」中提供下载。你可以关注公众号,后台回复:「PDF」即可获取。更多PDF下载可以参考:《重磅...
2021-12-23 08:00:00 2844 1
转载 如何利用 Flink CDC 实现数据增量备份到 Clickhouse
挖了很久的CDC坑,今天打算填一填了。本文我们首先来介绍什么是CDC,以及CDC工具选型,接下来我们来介绍如何通过Flink CDC抓取mysql中的数据,并把他汇入Clickhouse里...
2021-12-22 08:10:00 1362
原创 【Spark重点难点08】Spark3.0中的AQE和DPP小总结
点击上方蓝色字体,选择“设为星标”回复”面试“获取更多惊喜本文已加入「大数据成神之路PDF版」提供下载。后台回复:「PDF」即可获取。更多PDF下载可以参考:《重磅,大数据成神之路PDF...
2021-12-21 08:12:00 2035
原创 我在云栖社区读硕士,大数据专业
点击上方蓝色字体,选择“设为星标”回复”面试“获取更多惊喜前言 本篇文章是《我在B站读大学,大数据专业》的姊妹篇。我在2021年中旬写过一篇文章《八千里路云和月|从零到大数据专家学习路径指...
2021-12-20 08:00:00 966
原创 【Spark重点难点07】SparkSQL YYDS(加餐)!
本文已经加入「大数据成神之路PDF版」中提供下载。你可以关注公众号,后台回复:「PDF」即可获取。更多PDF下载可以参考:《重磅,大数据成神之路PDF可以分类下载啦!》Spark重点难点系...
2021-12-19 10:00:00 1258
转载 数据仓库实践-拉链表设计
1 写在开头的话拉链表,学名叫缓慢变化维(Slowly Changing Dimensions),简称渐变维(SCD),俗称拉链表,是为了记录关键字段的历史变化而设计出来的一种数据存储模型...
2021-12-18 10:00:00 1063
转载 Web3.0 兴起,元宇宙或接管互联网?
点击上方蓝色字体,选择“设为星标”更快接收大数据领域最新知识在听到元宇宙时,你首先想到的可能是科幻小说,或另一个宇宙。你的联想没有错,元宇宙是科幻作家尼尔·斯蒂芬森在小说《雪崩》中创造的词...
2021-12-18 10:00:00 675
原创 【Spark重点难点06】SparkSQL YYDS(中)
本文已经加入「大数据成神之路PDF版」中提供下载。你可以关注公众号,后台回复:「PDF」即可获取。更多PDF下载可以参考:《重磅,大数据成神之路PDF可以分类下载啦!》Spark重点难点系...
2021-12-16 08:10:00 688
转载 数据质量控制理论与实践经验
数据质量管理是对数据从计划、收集、记录、存储、回收、分析和展示生命周期的每个阶段里可能引发的数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据...
2021-12-16 08:10:00 1686
原创 【Spark重点难点】SparkSQL YYDS(上)!
本文已经加入「大数据成神之路PDF版」中提供下载,你可以关注公众号,后台回复:「PDF」即可获取。更多PDF下载可以参考:《重磅,大数据成神之路PDF可以分类下载啦!》Spark重点难...
2021-12-15 08:00:00 1168
转载 标签体系构建的核心思想是什么?
一、前言标签体系的方法论已经很多,我就不再重复了,本篇主要分享下我对标签体系的理解、构建标签体系的思路和标签体系实战模板及文档。二、标签体系的理解标签是对对象某个维度特征的描述与刻画,是某...
2021-12-14 08:30:00 285
原创 小了,格局小了
点击上方蓝色字体,选择“设为星标”回复”面试“获取更多惊喜昨天和朋友聚餐。聊起来了格局这个话题。下面是我个人的一些思考,拿出来分享一下。绝大多数的开发者或者泛化到绝大多数普通人,格局都很小...
2021-12-11 10:55:07 959
转载 Flink+hudi 构架沧湖一体化解决方案
简介Apache Hudi(发音为"Hoodie")在DFS的数据集上提供以下流原语插入更新 (如何改变数据集?)增量拉取 (如何获取变更的数据?)Hudi维护在数据集上执行的所有操作的时...
2021-12-10 08:30:00 1282
原创 给读者 | 2年时间,800+发文,180+原创全奉献
点击上方蓝色字体,选择“设为星标”回复”面试“获取更多惊喜回忆在我写作的这2年时间里有一个标志性的里程碑。2020年中,我在拉勾平台发表了自己的第一个电子专栏,关于Flink的,目前整个专...
2021-12-09 08:00:00 176
转载 Presto介绍及常用查询优化方法总结
1、Presto简介Presto是Facebook开源的MPP(Massive Parallel Processing)SQL引擎,其理念来源于一个叫Volcano的并行数据库,该数据库提...
2021-12-08 16:41:38 2125
转载 如何提升数据质量?(附实战文档)
一、前言数据质量保障的关键的步骤是数据质量规则、数据质量指标,数据探查,数据保障机制和数据清洗,不管是在做数据质量或者打算做数据质量工作的朋友都可以详细研究下,应该会有帮助。本篇包含数质量...
2021-12-07 07:40:00 546
原创 【Spark重点难点】你的代码跑起来谁说了算?(内存管理)
点击上方蓝色字体,选择“设为星标”回复”面试“获取更多惊喜《我们在学习Spark的时候,到底在学习什么?》《我在B站读大学,大数据专业》Spark源码阅读的正确打开方式前言在之前的课中我们...
2021-12-07 07:40:00 365
原创 【Spark重点难点】你的数据存在哪了?
《我们在学习Spark的时候,到底在学习什么?》《我在B站读大学,大数据专业》前言在之前的课中我们讲了Spark的RDD以及整个Spark系统中的一些关键角色:《【Spark重点难点】你从...
2021-12-04 18:44:13 630
原创 互联网最坏的时代可能真的来了
本文由【王知无】原创,首发于 CSDN博客!本文首发CSDN论坛,未经过官方和本人允许,严禁转载!本来我的【Spark重点难点系列】今天要发的文章已经写完了。但是有两个读者的留言让我内心十分煎熬,我觉得有必要拿出来分享一下。前两天有一篇《互联网大厂程序员梦醒时分》文章刷屏,如果你没看过可以百度搜一下。这篇文章里详细讲解了目前整个互联网的形势,我在2021年初的时候写过一篇《2021年,开发者的落日》。文中仅仅从技术方面分析了目前开发领域对大家的一些挑战,基于对2021年整个互联网技术从业者的
2021-12-03 21:16:05 820 1
原创 【Spark重点难点】你以为的Shuffle和真正的Shuffle
我们的【Spark重点难点】系列继续更新。以往的系列:我们在学习Spark的时候,到底在学习什么?我在B站读大学,大数据专业【Spark重点难点01】你从未深入理解的RDD和关键角色通俗解...
2021-12-02 07:40:00 700
原创 【Spark重点难点】你从未深入理解的RDD和关键角色
OK了,桑不啦pipo,today我们start更新Spark的重点难点系列了。前言之前我们成功完成了Flink重点难点部分的学习了。很多同学可能还没有意识到,你已经把Flink这个框架中...
2021-12-01 19:00:00 1220
转载 零售业电商标签从0到1的构建方法
导读:本文手把手教大家构建一套完整的零售行业标签类目体系。背景D电商是一家零售电子商务公司,布局了集线上交易、线下物流、金融、社区于一体的生态链路,拥有该细分行业内领先的全品类一站式交易平...
2021-12-01 19:00:00 855
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人