- 博客(16)
- 资源 (1)
- 收藏
- 关注
原创 MapReduce数据格式详解
MapReduce数据处理的核心概念是键值对(Key-Value Pair)格式,所有数据都以<Key, Value>形式流转。
2026-01-23 20:18:18
392
原创 Hive_vs_Spark执行引擎对比分析报告
数据量Hive耗时Spark耗时性能提升Hive问题1GB3-5分钟2-4分钟1-1.5倍无明显问题10GB20-30分钟8-12分钟2-3倍Reducer压力开始显现100GB55-105分钟12-20分钟4-5倍单Reducer瓶颈严重500GB3-6小时30-50分钟5-7倍经常OOM或超时1TB3.5-7小时40-60分钟5-7倍极易失败方面相似度说明数据读取⭐⭐⭐⭐⭐都是并行读取,任务数由数据分区决定数据分区⭐⭐⭐⭐⭐都使用hash分区,逻辑完全一致任务调度⭐⭐⭐⭐。
2026-01-19 21:11:52
599
原创 算法经典150题
盒子的作用:记住你之前拿过哪些数字,避免重复计算。为什么时间复杂度是 O(n):每个数字只被拿起一次,检查盒子只需 1 步。为什么不会重复使用元素:每次检查盒子时,当前数字还没被放进盒子,保证两个不同的索引!通过这种「边拿边记」的策略,算法高效地找到了答案!
2025-06-10 20:43:36
1827
原创 数据倾斜优化解析
数据倾斜(Data Skew)是指在分布式计算系统中,数据在不同节点或分区之间分布严重不均,导致部分节点处理的数据量远大于其他节点,从而引发性能瓶颈、资源浪费甚至任务失败的现象。其核心目标是将任意长度的输入(如字符串、数字)转换为一个唯一的或近似唯一的数值,以便后续的分区、分治或快速查找操作。对高频avid的mid添加随机前缀,例如将avid 1002的mid转换为多个虚拟avid(如1002_0, 1002_1等)。:这是一个哈希函数,通常用于将输入值转换为固定长度的数值,称为哈希值。
2025-05-13 21:29:49
1425
原创 Hadoop
hadoop 简介hadoop是分布式系统基础架构,有三个组件:HDFS、MapReduce、YarnHDFS:分布式文件存储系统MapReduce:分布式计算系统Yarn:分布式集群资源管理1 HDFS1.1 HDFS核心设计1、数据块(block)是 hdfs 上存储数据的基本单位,大小是128M,所有文件都是以block块的形式存在hdfs 系统中。因为一个文件可能会大于一个磁盘的大小,所以要切分成block块。2、数据块复制:通过创建多个数据块的副本,可以提升
2023-02-15 15:08:39
587
原创 Spark
Spark文章目录Sparkdemo1WordCountdemo2WCSubmitRDD五大特性转换算子demo3Map(常用)demo4MapPartitiondemo5Filter(常用)FlatMap(常用)demo7SampleGroupBy(常用)demo9ReduceByKeydemo10Uniondemo11Join(常用)demo12MapValuesdemo13Sort(常用)demo14ActiondemoPIdemopartiton缓存demo1Cachedemo2Checkpoin
2021-07-05 23:22:56
80
原创 Hive基础
Hive数据仓库数据仓库是存数据的,企业的各种数据往里存,主要目的是为了分析有效数据,后续会基于它产出供分析挖掘的数据,或者数据应用需要的数据,如企业的分析性报告和各类报表等。可以理解为:数据仓库是面向分析的存储系统主要特征:是面向主题的、集成的、非易失的和时变的数据集合,用于支持管理决策。数据库与数据仓库的区别:数据仓库是在数据库已经大量存在的情况下,为了进一步挖掘数据资源,为了决策需要而产生的,它绝不是所谓的 “大型数据库”。1 Hive介绍传入一条交互式的SQL在海量的数据中查询
2021-07-05 23:15:17
1837
原创 Python
本文介绍了Python编程语言的基础知识,涵盖了变量、注释、数据类型、运算符、列表、元组、字典、集合以及选择结构和循环结构等内容。文章详细讲解了变量的命名规则、注释的使用方法、五大基本数据类型(整型、浮点型、字符串、布尔型、空类型)及其转换,以及算术运算符和布尔运算符的使用。此外,还介绍了列表、元组、字典和集合的定义、操作和特性,包括元素的增删改查、切片、不可变性等。最后,简要提及了选择结构(if、else、elif)的使用方法。通过这些内容,读者可以初步掌握Python的基础语法和常用数据结构。
2021-06-23 00:15:37
65
原创 Scala
Scala代码要先看等号右边的Scala是把函数式编程思想和面向对象编程思想结合的一种编程语言。大数据计算引擎Spark由Scala编写。在面向对象编程中,我们把对象传来传去;那在函数式编程中,我们要做的是把函数传来传去,而这个,说成术语,我们把他叫做高阶函数。在函数式编程中,函数是基本单位,,他几乎被用作一切,包括最简单的计算,甚至连变量都被计算所取代。在函数式编程中,变量只是一个名称,而不是一个存储单元,这是函数式编程与传统的命令式编程最典型的不同之处。特点 :函数式编程 兼容YAVA
2021-06-19 23:12:31
399
原创 2021-06-12
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar
2021-06-12 09:56:30
176
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1