- 博客(475)
- 收藏
- 关注
原创 高频 SQL 50 题(基础版)_1517. 查找拥有有效邮箱的用户
【代码】高频 SQL 50 题(基础版)_1517. 查找拥有有效邮箱的用户。
2025-03-10 18:03:22
107
原创 高频 SQL 50 题(基础版)_1327. 列出指定时间段内所有的下单产品
【代码】高频 SQL 50 题(基础版)_1327. 列出指定时间段内所有的下单产品。
2025-03-10 18:02:28
115
原创 高频 SQL 50 题(基础版)_185. 部门工资前三高的所有员工
【代码】高频 SQL 50 题(基础版)_185. 部门工资前三高的所有员工。
2025-03-10 18:01:22
90
原创 高频 SQL 50 题(基础版)_1204. 最后一个能进入巴士的人
【代码】高频 SQL 50 题(基础版)_1204. 最后一个能进入巴士的人。
2025-03-10 17:58:26
87
原创 Flink技术理解
这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像 Flink,也就在这个时候默默的发展着。在国外一些社区,有很多人将大数据的计算引擎分成了 4 代,当然,也有很多人不会认同。我们先姑且这么认为和讨论。首先第一代的计算引擎,无疑就是 Hadoop 承载的 MapReduce
2025-03-08 20:45:50
864
原创 Hive技术原理
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。其本质是将SQL转换为MapReduce/Spark的任务进行运算,底层由HDFS来提供数据的存储,说白了hive可以理解为一个将SQL转换为MapReduce/Spark的任务的工具,甚至更进一步可以说hive就是一个MapReduce/Spark Sql的客户端为什么要使用hive?
2025-03-08 20:15:43
962
原创 Hadoop技术原理
MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而不是自己原创。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。Reduce负责“合”,即对map阶段的结果进行全局汇总。MapReduce运行在yarn集群。
2025-03-08 20:14:24
799
原创 Spark技术理解
开发中如何保证数据的安全性性及读取效率: 可以对频繁使用且重要的数据,先做缓存/持久化,再做 checkpint 操作。-持久化和 Checkpoint 的区别:1.位置: Persist 和 Cache 只能保存在本地的磁盘和内存中(或者堆外内存–实验中) Checkpoint 可以保存数据到 HDFS 这类可靠的存储上。
2025-03-08 20:12:35
919
原创 高频 SQL 50 题(基础版)_602. 好友申请 II :谁有最多的好友
【代码】高频 SQL 50 题(基础版)_602. 好友申请 II :谁有最多的好友。
2025-03-05 00:26:40
135
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人