数据与算法架构提升之路
没人会把我们变的越来越好,时间也只是陪衬。支撑我们变的越来越好的是我们自己不断进阶的才华,修养,品行以及不断的反思和修正
展开
-
YARN集群下的Spark应用:揭秘资源调度与任务执行的高效协作流程
Spark应用程序通过YARN的ResourceManager和ApplicationMaster实现资源分配和任务调度,完成集群内高效计算原创 2024-08-28 10:27:59 · 144 阅读 · 0 评论 -
数据关联的艺术:揭秘Spark SQL中的5大Join策略与性能优化秘籍
在分布式数据处理中,选择合适的Join策略对提升Spark SQL性能至关重要。通过理解嵌套循环Join(NLJ)、排序归并Join(SMJ)和哈希Join(HJ)的工作原理,开发者可以根据数据特性和业务需求,利用Spark提供的Join Hints,优化查询性能,实现高效的数据关联。原创 2024-08-19 23:18:25 · 270 阅读 · 0 评论 -
揭秘分布式计算的心脏:Shuffle技术如何优化数据流并避免性能瓶颈
Shuffle 是分布式计算中数据重新分配的过程,类似于洗牌,分为 Map 和 Reduce 两个阶段。它通过优化数据传输和聚合操作,如 groupByKey 和 reduceByKey,来提高性能。然而,Shuffle 也可能成为性能瓶颈,因为它涉及数据的网络和磁盘 I/O,特别是在大规模数据处理时。原创 2024-08-19 21:56:03 · 97 阅读 · 0 评论 -
Spark Tungsten:数据结构与代码生成的双重革新
Tungsten是Apache Spark的性能优化项目,通过引入Unsafe Row数据结构和基于内存页的管理,以及全阶段代码生成(WSCG),减少存储开销、提升GC效率,并优化CPU缓存命中率,从而显著提高Spark的性能。原创 2024-08-10 19:39:32 · 140 阅读 · 0 评论 -
Catalyst优化器:让你的Spark SQL查询提速10倍
Spark SQL优化分为逻辑和物理两个阶段。逻辑阶段解析查询,应用规则如谓词下推。物理阶段选择最佳join策略和执行计划。Catalyst优化器贯穿全程,基于规则和成本模型优化。最终生成高效的物理计划,由Tungsten执行。原创 2024-07-28 13:26:29 · 423 阅读 · 0 评论 -
Spark进化论:从RDD到DataFrame,揭秘Spark SQL如何成为性能引擎的幕后英雄
Spark SQL优化分为逻辑和物理两个阶段。逻辑阶段解析查询,应用规则如谓词下推。物理阶段选择最佳join策略和执行计划。Catalyst优化器贯穿全程,基于规则和成本模型优化。最终生成高效的物理计划,由Tungsten执行。原创 2024-07-28 10:46:43 · 263 阅读 · 0 评论 -
性能调优本质:如何精准定位瓶颈并实现系统极致优化
性能调优是一个动态过程,关键在于识别并解决瓶颈。通过专家经验和运行时诊断定位瓶颈,从应用代码和Spark配置项两方面进行调优,最终目标是实现硬件资源的平衡和无瓶颈状态原创 2024-07-27 19:47:33 · 299 阅读 · 0 评论 -
揭秘大数据处理利器:Spark SQL的全流程解析鸟瞰
Spark SQL 结合了 SQL 的易用性和 Spark 的分布式计算能力,通过优化查询计划和内存管理,为大规模数据处理提供了一个强大、灵活且高效的解决方案。原创 2024-06-28 07:16:20 · 996 阅读 · 2 评论 -
Spark面试全攻略:深入理解与高效准备指南
这份文档提供了全面的Spark面试准备指南,涵盖了从基础到高阶的面试问题,包括Spark的核心概念、API使用、性能优化技巧以及最新的Spark特性。文档结构清晰,内容详实,旨在帮助面试者深入理解Spark框架,提升面试表现。原创 2024-01-27 21:52:05 · 835 阅读 · 2 评论 -
PySpark实战:构建线性回归模型预测房价
Pyspark中支持两个机器学习库:mllib及ml,区别在于ml主要操作的是DataFrame,而mllib操作的是RDD,即二者面向的数据集不一样。相比于mllib在RDD提供的基础操作,ml在DataFrame上的抽象级别更高,数据和操作耦合度更低。原创 2023-07-31 16:49:15 · 759 阅读 · 0 评论 -
Spark 推测执行原理和应用
在Spark中,可以通过推测执行,来识别并在其他节点的Executor上重启某些运行缓慢的Task,并行处理同样的数据,谁先完成就用谁的结果,并将另一个未完成的Task Kill掉,从而加快Task处理速度原创 2023-05-13 18:09:42 · 988 阅读 · 0 评论 -
发掘Spark 3.0潜能:探索与利用调优新特性提升大数据处理性能
Spark 3.0 大版本发布,Spark SQL 的优化占比将近 50%。Spark SQL 取代 Spark Core,成为新一代的引擎内核,所有其他子框架如 Mllib、Streaming 和 Graph,都可以共享 Spark SQL 的性能优化,都能从 Spark 社区对于 Spark SQL 的投入中受益。原创 2023-05-03 00:16:15 · 954 阅读 · 0 评论 -
Hbase之Spark通过BlukLoad的方式批量加载数据到HBase中
Hbase之Spark通过BlukLoad的方式批量加载数据到HBase中原创 2023-04-11 18:44:27 · 603 阅读 · 0 评论 -
Hive on Spark生产调优之Job和Join优化
Job map端reduce端 和 Join优化原创 2023-03-23 14:37:19 · 936 阅读 · 0 评论 -
Hive on Spark生产调优之组件参数配置
Sprak生产常用参数配置总结原创 2023-01-06 14:43:59 · 1236 阅读 · 0 评论 -
Hive on Spark生产调优之数据倾斜
继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。原创 2023-01-01 15:17:34 · 1138 阅读 · 0 评论 -
Hive on Spark生产调优之缓存算子处理结果
cache()是persist()的特例,persist可以指定一个StorageLevel(缓存级别)cache的缓存级别是memory_only原创 2022-11-04 18:28:09 · 268 阅读 · 0 评论 -
Hive on Spark下row_number()问题排查
涉及hive3.1.2原生的bug,在做row_number(partition by 字段A)排序之前,如发生cast( 字段A as 类型B) as 字段A情况,那分区排序结果是有问题的原创 2022-09-14 14:22:52 · 1869 阅读 · 2 评论 -
Apache Spark 基础知识总结及应用示例
对比与FlinkSpark 基于微批量处理,Spark 对 SQL 支持更好,Spark 的社区更加活跃,Spark 对机器学习的支持很好原创 2019-07-09 08:20:20 · 1823 阅读 · 0 评论 -
Hive on Spark生产调优之内存管理
之前在Hive on Spark跑测试时,100g的数据量要跑⼗⼏个⼩时,⼀看CPU和内存的监控,发现 POWER_TEST阶段(依次执⾏30个查询)CPU只⽤了百分之⼗⼏,也就是没有把整个集群的性能利⽤起来,导致跑得很慢。因此,如何调整参数,使整个集群发挥最⼤性能显得尤为重要。原创 2022-04-28 00:42:05 · 3043 阅读 · 0 评论