On the way

丨靡不有初,鲜克有终;不忘初心,方得始终丨大数据方向自学探索者 | 欢迎交流学习 ™️...

Spark调优与学习笔记

【1】数据本地行存储,将存储与计算同节点部署 【2】存储格式选择列式存储,如Parquet,减少读IO量,压缩比高,减少存储空间。 【3】选择合理的Partition Key,防止数据倾斜或任务倾斜。 【4】对复用的RDD进行cache缓存操作 【5】尽可能避免shuffle,如:用red...

2018-03-23 09:10:51

阅读数:22

评论数:2

Linux中Spark SQL分布式SQL引擎 部署RDB | 安装MySQL+Hive | 使用beeline交互式工具

● 文件准备 hive-0.12.0.tar.gz https://pan.baidu.com/s/1nxnAd0P MySQL-client-5.1.73-1.glibc23.x86_64.rpm https://pan.baidu.com/s/1eUaXhC2 MySQL-server-5...

2018-02-22 16:15:36

阅读数:85

评论数:0

shell命令行中用sbt打包scala程序为jar包 并发布到集群中测试

1. sbt安装 下载sbt文件,并在Linux中解压二进制的sbt软件包,这里提供下载地址 https://www.scala-sbt.org/download.html 在解压后进入目录,然后执行./bin/sbt,第一次执行时会从网上下载依赖的JAR包,并保存到~/.sbt: [elo...

2018-02-22 01:36:22

阅读数:129

评论数:0

idea利用sbt打包scala程序为jar包 并发布到集群中测试

前提条件是创建好了wordcount项目,可以参考Scala官方IDE教程 Getting Started with Scala in IntelliJ Building a Scala Project with IntelliJ and sbt Spark Quick Start http...

2018-02-22 01:08:03

阅读数:175

评论数:0

ERROR Executor: Exception in task 0.0 in stage 91.0

遇到下面这种Executor报错的情况,多半是sparkRDD或者DataFrame定义的时候出了问题,因为sparkSql程序执行的机制是:transformation端不是真正的执行,只有action端才是执行的开始,所以会在action函数调用的时候,才会把之前transform端或者定义类...

2018-02-14 11:20:41

阅读数:416

评论数:2

hadoop-yarn集群中,通过shell脚本自动化提交spark任务

spark_submit.sh #!/bin/sh # spark_submit.sh # 这是提交spark任务到yarn分布式集群上的自动化脚本 export HADOOP_HOME=/home/elon/hadoop/hadoop-2.7.5 spark-submit --mas...

2018-02-11 12:18:33

阅读数:119

评论数:0

使用Maven编译Spark源码

参考下面这篇博客,可以学到很多关于maven源码编译相关的知识。 例如,将阿里云的资源库设为maven资源下载的目标地址等等 使用Maven编译Spark源码 http://blog.csdn.net/lc_1123/article/details/78628989 编译错误 解决方...

2018-02-10 21:13:14

阅读数:51

评论数:0

SparkContext Error File not found /tmp/spark-events does not exist

[Error] SparkContext Error - File not found /tmp/spark-events does not exist 在master节点上创建了/tmp/spark-events.然后将其分发到集群上的其他节点即可工作。 mkdir /tmp/spark-e...

2018-02-10 14:43:21

阅读数:144

评论数:0

spark2.2.1中 spark.yarn.jars | spark.yarn.archive的正确配置

【ERROR】 错误: 找不到或无法加载主类 org.apache.spark.deploy.yarn.ExecutorLauncher End Could not find or load main class org.apache.spark.deploy.yarn.ExecutorLaun...

2018-02-09 21:33:29

阅读数:236

评论数:0

spark2.x 独立集群环境搭建 | 适用于spark集群环境搭建

在开始环境搭建的教程之前,先说明下 此篇博文为作者自学过程中实际操作总结,正确性以验证,并作为一位学习者记录自己的操作过程。 准备一个以上的unix系统环境 | 克隆WM虚拟机及修改系统参数的全过程 克隆WM虚拟机 克隆之前local模式下调试的spark虚拟机,采用克隆完整文件的模...

2018-02-07 23:52:30

阅读数:315

评论数:0

sparkSQL结合hive的入门程序

学习sparkSQL时最简单的一个示例,是用json格式的文件充当hive表,并注册为临时表,然后用hiveQL的API来查询得出需要的结果。 package spark.sparkSQL import org.apache.spark.SparkConf import org.apache....

2018-01-30 01:18:33

阅读数:82

评论数:0

Spark程序开发规范

在编写SparkRDD程序时,经常要将本地开发好的代码,在本地测试完后,要打包成jar,并发布到集群上去跑一跑。这是通过命令行传入参数的友好性提示和规范编码就体现出来了,下面我将整理【Scala语言开发Spark程序的常用模板】 package spark.sparkSQL object Sp...

2018-01-29 15:52:44

阅读数:211

评论数:0

Scala Spark Map DataFrame Missing Paramenter Type

在学习sparkSQL时,按照书中的例子敲了代码,但是报出map row:Missing Paramenter Type的错误,意思就是没有指定row变量的类型。 当我在我的代码的val hiveCtx = new HiveContext(sc)的下一行,添加import hiveCtx.imp...

2018-01-28 20:46:35

阅读数:97

评论数:0

org.apache.hadoop.io.nativeio.NativeIO$Windows.createFileWithMode0(Ljava/lang/String;JJJI)Ljava/io..

这是在Windows环境下执行Spark程序时出现的,本人的windows系统中 安装的是Hadoop2.7.5包,可跨windows平台执行的包已发布在csdn下载栏中,【点击获取】 执行Spark程序,saveAsTextFile(path)函数时出现异常 An exception or ...

2018-01-26 16:52:21

阅读数:140

评论数:0

【Windows中Spark环境搭建 | 基于Maven依赖库】在windows中对spark程序进行local调试学习

写在开头 本博客的目标是可以在不开启spark集群 | Linux虚拟机的情况下,对Spark RDD程序的完美运行,旨在解放初学者应无Linux集群环境、无内存容量支撑的情况下运行spark程序,写这篇的灵感来源于自己在学习Spark时,看官方文档中介绍spark standalone模式部署...

2018-01-22 23:02:17

阅读数:100

评论数:0

配置和启动Spark | local模式以及standalone模式

Spark Local模式 直接在 $SPARK_HOME/bin/spark-shell 中运行spark RDD程序,在UI界面http://nodename:4040/中可以看到jobs的执行情况 [elon@spark ~]$ spark-shell --master local ...

2018-01-21 10:47:59

阅读数:418

评论数:0

Eclipse+Maven+Scala Project+Spark | 编译并打包wordcount程序

学习用Eclipse+Maven来构建并打包一个简单的单词统计的例程。 本项目源码已托管于Github –>【Spark-wordcount】 第一步 在EclipseIDE中安装Scala插件 在Eclipse中安装Scala插件 第二步 创建Scala Proje...

2018-01-12 18:47:18

阅读数:532

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭