Spark技术
Spark相关
谭正强
一个不愿在枯燥的日子里自废武功,同时对技术有点追求的 Java、大数据程序员。永远对牛人心生敬仰,对自己不甘平庸。
人到中年,太多的无奈驱使我无法专心做技术,但是在这里我希望这颗心可以纯粹点,聊点对技术的热爱,反省下当下的人生。
展开
-
spark数据倾斜的一个小case
项目场景:提示:这里简述项目相关背景:例如:项目场景:示例:通过蓝牙芯片(HC-05)与手机 APP 通信,每隔 5s 传输一批传感器数据(不是很大)问题描述:提示:这里描述项目中遇到的问题:例如:数据传输过程中数据不时出现丢失的情况,偶尔会丢失一部分数据APP 中接收数据代码:@Override public void run() { bytes = mmInStream.read(buffer); mHandler.obtainMessage(READ_DATA, bytes,原创 2020-12-12 11:16:03 · 304 阅读 · 0 评论 -
Spark on yarn内存分配笔记
一、知识回顾spark driver和executor的on-heap(堆内)内存是如何配置的?spark driver和excutor的off-heap(堆外)内存是如何配置的?yarn的最小调度单元是什么?Spark On Yarn 下executor-memory 参数如何生效?Cluster 和 Client 模式中 内存开销的区别?Yarn 规整化因子是什么?Yarn 上能运行多少个任务到底由谁来决定呢?二、思考&解答Spakr内存模型如下所示:Spark的E原创 2020-05-11 11:38:43 · 781 阅读 · 0 评论 -
Spark 异常总结及解决办法
前言总结Spark开发中遇到的异常及解决办法,之前也写过几篇,之所以不再一个异常写一篇博客,是因为现在Spark用的比较熟悉了一些,觉得没必要把异常信息写那么详细了,所以就把异常总结在一篇博客里了,这样既能备忘也方便查找。1、之前的几篇spark-submit报错:Exception in thread “main” java.sql.SQLException:No suitable...转载 2019-12-18 15:03:48 · 6168 阅读 · 0 评论 -
Spark写文件失败测试记录
环境:Spark Version: 2.4.0目的:包含非法数据的情况下,spark是否能够写入?还是什么都没有?验证:使用Spark-shell On Yarn 本地方式提交1、本地进行任务提交,使用spark-shell快速验证/opt/spark-2.4.0-bin-hadoop2.7/bin/spark-shell \--master yarn \--queue root....原创 2019-11-23 17:58:22 · 557 阅读 · 0 评论 -
SparkSQL之broadcast join
当数据集的大小小于spark.sql.autoBroadcastJoinThreshold 所设置的阈值的时候, SPARK SQL 使用广播join来代替hash join 来优化join查询。广播join可以非常有效地用于具有相对较小的表和大型表之间的连接,然后可用于执行星型连接。 它可以避免通过网络发送大表的所有数据你可以使用广播函数或者SQL广播提示来标记一...翻译 2018-06-12 19:38:29 · 10331 阅读 · 0 评论