spark
向阳飞行
还在学习的路上
展开
-
sparkshuffle调优--参数调优
sparkshuffle的参数调优转载 2018-09-10 19:07:19 · 242 阅读 · 1 评论 -
CDH 5.14安装Spark2服务
由于默认的Spark版本为1.6,开发任务需要Spark2所以记录一次Spark2的安装。一、JDK1.8集群的JDK版本升级,Spark2需要JDK1.8来支持 下载 JDK1.8 上传到/usr/share/jdk8文件夹下 每个节点都需要在相同的目录下配置JDK CDH配置中制定Java的目录 二、下载spark2spa...原创 2019-02-12 18:52:46 · 919 阅读 · 0 评论 -
记录一次Spark调优性能对比
在重写MR到Spark的过程中发现Spark的性能并没有达到我的预期,记录一次调优操作即效果对比本文涉及调优手段:持久化 分区数未调优之前的代码:val jsonStringRDD: RDD[String] = sc.textFile(s"$inputPath")val check1RDD = jsonStringRDD.filter(js => check1(...原创 2018-12-18 19:13:18 · 422 阅读 · 0 评论 -
spark写 本地文件报错
环境:spark1.6,window10,Hadoop2.6报错:rdd.saveastextFile(outPath)原因:.在spark bin目录下没有winutils.exe问价 本地dill问价有损坏 c/windows/system32中没有hadoop.dll文件解决:查看文件夹,没有文件去下载并放到文件夹下;如果有文件尝试修复本地环境,下载DirectX Repa...原创 2018-12-11 15:59:06 · 1172 阅读 · 0 评论 -
sparkRDD的持久化问题
spark的rdd与其他dataSet都可以做持久化,关于持久化的等级也可根据自身需求选择关于持久化等级可查看官网http://spark.apache.org/docs/latest/rdd-programming-guide.html#rdd-persistence这里记录一次关于持久化的直观感受;在项目中需要对一批数据做三次校验,1.通用校验,2.字段名称合法性校验,3.字段值得...原创 2018-11-17 11:55:57 · 526 阅读 · 0 评论 -
Scala对于map不同的遍历方式
在java中遍历map需要拿到entry然后获取keyset然后通过get(key)的方式来遍历map;由于本身在学习的时候java的思想深入人心导致在写Scala的时候不自觉的使用了这种遍历方式,但是这种方式会产生问题;如下代码val keys = map.keySet for (key <- keys){ //println(key) ...原创 2018-11-02 17:10:02 · 18882 阅读 · 0 评论 -
spark yarn-cluster模式参数配置
现象:在提交spark任务时指定executor-memory 2g时报错Failing Oozie Launcher, Main class [org.apache.oozie.action.hadoop.SparkMain], main() threw exception, Required executor memory (2048+384 MB) is above the max ...原创 2018-10-19 10:14:20 · 1885 阅读 · 0 评论 -
spark-streaming例子程序
开发spark-streaming从服务器端口实时接收数据进行worldcount;环境搭建idea+maven 其pom文件如下:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http:/...原创 2018-10-18 17:52:23 · 216 阅读 · 0 评论 -
关于访问增量问题的思考
问题:在访问日志中会出现会话中断但是用户未离开的情况,会产生两条或更多记录,但是这些记录都是一次访问的日志,希望可以合并记录;user_name arrived_time leave_time A 00:00 00:23 A 00:23 00:40 A 00:40 00:50 A 04:00 04::23 期望...原创 2018-09-27 17:42:28 · 290 阅读 · 0 评论 -
Spark递归读取文件夹 删除HDFS文件
在使用Spark 计算HDFS数据时会遇到整个文件夹文件读取,删除输出路径的需求,特此记录一次递归读取文件:sc .hadoopConfiguration .setBoolean("mapreduce.input.fileinputformat.input.dir.recursive", true)删除已存在的路径:def deleteOutPutPath(sc: Sp...原创 2019-03-01 15:51:56 · 2154 阅读 · 0 评论