Spark
文章平均质量分 96
大数据开发--Spark
new个对象先
穷且益坚,不坠青云之志
展开
-
在不升级Ambari前提下,升级HDP spark版本至spark2.4.8
文章目录零. 方案选择一. 2.4.8版本安装二. spark2版本升级2.0 升级前提2.1 版本升级相关脚本三. spark2升级后遇到的问题及解决方案原创 2021-12-07 20:07:59 · 2345 阅读 · 5 评论 -
实际工作中的Spark程序优化
本篇博客要点如下:一.Spark编程优化RDD复用避免创建重复的RDD尽可能复用RDDRDD持久化对经常使用的RDD进行持久化选择合适的持久化策略使用Kryo优化序列化性能使用广播变量合适的算子选择尽量避免使用shuffle算子在Map端进行预聚合选用更高性能的算子二.参数调优Executor参数设置Driver参数设置并行度...原创 2019-08-16 18:04:44 · 400 阅读 · 1 评论 -
Spark2.4 基本RDD的Transform 操作总结
本篇文章主要内容如下:环境准备必要的初始化Transform操作总结transform操作简介map操作filter操作flatMap操作distinct操作union操作intersection操作curtesion操作substract操作sample操作全部程序代码一. 环境准备1. spark2.4...原创 2019-04-29 18:13:52 · 1632 阅读 · 0 评论 -
使用spark对输入目录的文件进行过滤
使用spark进行文件过滤在使用spark的很多情形下, 我们需要计算某个目录的数据.但这个文件夹下面并不是所有的文件都是我们想要计算的比如 : 对于某一天的数据,我们只想计算其中的几个小时,这个时候就需要把剩下的数据过滤掉更坏的一种情形 : 对于那些正在copy(还没有完成),或者是.tmp临时文件,程序在读取的过程中,文件发生变化已经复制完成或者被删除,都会导致程序出错而停掉...原创 2018-10-23 15:54:40 · 3570 阅读 · 0 评论 -
spark1.x升级到spark2.x以及1.x和2.x的版本兼容
1. spark 1.x 升级到spark 2.x对于普通的spark来说,变动不大 :举一个最简单的实例:spark1.xpublic static JavaRDD<String> workJob(JavaRDD<String> spark1Rdd) { JavaPairRDD<String, Integer&a原创 2018-05-31 20:55:25 · 2220 阅读 · 0 评论 -
windows下的java,hadoop,spark环境搭建
最近新购置的电脑到货~ 准备从环境的搭建开始记录下我编程学习和工作成长的全过程. 废话不多说,开始搭建windows下的大数据开发环境. 1.java jdk的安装以及环境变量的配置下载链接:jdk下载链接(在这个链接中根据操作系统的位数选择适合自己的jdk版本)博主选择的是jdk1.8版本下载结束后,开始对其进...原创 2017-12-23 09:17:45 · 853 阅读 · 0 评论