【大数据】➣ Spark
文章平均质量分 52
gamedev˚
很多东西不是你觉得有用才去学,而是学了才知道它有用。
展开
-
org.apache.hadoop.io.nativeio.NativeIO$Windows.createFileWithMode0(Ljava/lang/String;JJJI)Ljava/io..
这是在Windows环境下执行Spark程序时出现的,本人的windows系统中 安装的是Hadoop2.7.5包,可跨windows平台执行的包已发布在csdn下载栏中,【点击获取】执行Spark程序,saveAsTextFile(path)函数时出现异常An exception or error caused a run to abort: org.apache.hadoop.io.n原创 2018-01-26 16:52:21 · 1323 阅读 · 0 评论 -
Linux中Spark SQL分布式SQL引擎 部署RDB | 安装MySQL+Hive | 使用beeline交互式工具
● 文件准备hive-0.12.0.tar.gz https://pan.baidu.com/s/1nxnAd0PMySQL-client-5.1.73-1.glibc23.x86_64.rpm https://pan.baidu.com/s/1eUaXhC2MySQL-server-5.1.73-1.glibc23.x86_64.rpm https://pan.baidu.com/s/...原创 2018-02-22 16:15:36 · 648 阅读 · 0 评论 -
idea利用sbt打包scala程序为jar包 并发布到集群中测试
前提条件是创建好了wordcount项目,可以参考Scala官方IDE教程 Getting Started with Scala in IntelliJBuilding a Scala Project with IntelliJ and sbtSpark Quick Start https://spark.apache.org/docs/latest/quick-start.html#s...原创 2018-02-22 01:08:03 · 10804 阅读 · 0 评论 -
shell命令行中用sbt打包scala程序为jar包 并发布到集群中测试
1. sbt安装下载sbt文件,并在Linux中解压二进制的sbt软件包,这里提供下载地址 https://www.scala-sbt.org/download.html在解压后进入目录,然后执行./bin/sbt,第一次执行时会从网上下载依赖的JAR包,并保存到~/.sbt:[elon@hadoop ~]$ tar xf sbt-1.1.1.tgz[elon@hadoop ~]$ ...原创 2018-02-22 01:36:22 · 3460 阅读 · 0 评论 -
spark2.x 独立集群环境搭建 | 适用于spark集群环境搭建
在开始环境搭建的教程之前,先说明下 此篇博文为作者自学过程中实际操作总结,正确性以验证,并作为一位学习者记录自己的操作过程。准备一个以上的unix系统环境 | 克隆WM虚拟机及修改系统参数的全过程克隆WM虚拟机克隆之前local模式下调试的spark虚拟机,采用克隆完整文件的模式 修改unix系统参数通过上一步的克隆,得到多个unix系统环境,现在拿其中一...原创 2018-02-07 23:52:30 · 948 阅读 · 0 评论 -
ERROR Executor: Exception in task 0.0 in stage 91.0
遇到下面这种Executor报错的情况,多半是sparkRDD或者DataFrame定义的时候出了问题,因为sparkSql程序执行的机制是:transformation端不是真正的执行,只有action端才是执行的开始,所以会在action函数调用的时候,才会把之前transform端或者定义类方法的时候存在的错误显式的抛出来。 可以根据exception具体信息以及之前的代码确定哪儿出来问题...原创 2018-02-14 11:20:41 · 12005 阅读 · 7 评论 -
Scala Spark Map DataFrame Missing Paramenter Type
在学习sparkSQL时,按照书中的例子敲了代码,但是报出map row:Missing Paramenter Type的错误,意思就是没有指定row变量的类型。当我在我的代码的val hiveCtx = new HiveContext(sc)的下一行,添加import hiveCtx.implicits._代码段之后,错误被解除了。因为这段代码会将RDD隐式转换为DataFrame 完整代...原创 2018-01-28 20:46:35 · 601 阅读 · 0 评论 -
hadoop-yarn集群中,通过shell脚本自动化提交spark任务
spark_submit.sh#!/bin/sh# spark_submit.sh# 这是提交spark任务到yarn分布式集群上的自动化脚本export HADOOP_HOME=/home/elon/hadoop/hadoop-2.7.5spark-submit --master yarn --deploy-mode client --class org.training....原创 2018-02-11 12:18:33 · 2167 阅读 · 0 评论 -
【Windows中Spark环境搭建 | 基于Maven依赖库】在windows中对spark程序进行local调试学习
写在开头本博客的目标是可以在不开启spark集群 | Linux虚拟机的情况下,对Spark RDD程序的完美运行,旨在解放初学者应无Linux集群环境、无内存容量支撑的情况下运行spark程序,写这篇的灵感来源于自己在学习Spark时,看官方文档中介绍spark standalone模式部署,动辄20G内存、一个Master附带几个worker节点,然后默默看了眼自己的笔记本,8G内存、还要原创 2018-01-22 23:02:17 · 836 阅读 · 1 评论 -
使用Maven编译Spark源码
参考下面这篇博客,可以学到很多关于maven源码编译相关的知识。 例如,将阿里云的资源库设为maven资源下载的目标地址等等 使用Maven编译Spark源码 http://blog.csdn.net/lc_1123/article/details/78628989编译错误 解决方案参考 [1] Problems while compiling Spark with mav...原创 2018-02-10 21:13:14 · 347 阅读 · 0 评论 -
sparkSQL结合hive的入门程序
学习sparkSQL时最简单的一个示例,是用json格式的文件充当hive表,并注册为临时表,然后用hiveQL的API来查询得出需要的结果。package spark.sparkSQLimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql.hive原创 2018-01-30 01:18:33 · 331 阅读 · 0 评论 -
SparkContext Error File not found /tmp/spark-events does not exist
[Error] SparkContext Error - File not found /tmp/spark-events does not exist在master节点上创建了/tmp/spark-events.然后将其分发到集群上的其他节点即可工作。mkdir /tmp/spark-eventsrsync -a /tmp/spark-events {slaves}:/tmp/spar...原创 2018-02-10 14:43:21 · 4277 阅读 · 0 评论 -
Spark程序开发规范
在编写SparkRDD程序时,经常要将本地开发好的代码,在本地测试完后,要打包成jar,并发布到集群上去跑一跑。这是通过命令行传入参数的友好性提示和规范编码就体现出来了,下面我将整理【Scala语言开发Spark程序的常用模板】package spark.sparkSQLobject SparkSQLTwitter { def main(args: Array[String]) {原创 2018-01-29 15:52:44 · 2317 阅读 · 0 评论 -
spark2.2.1中 spark.yarn.jars | spark.yarn.archive的正确配置
【ERROR】 错误: 找不到或无法加载主类 org.apache.spark.deploy.yarn.ExecutorLauncher End Could not find or load main class org.apache.spark.deploy.yarn.ExecutorLauncher Application failed 2 times due to AM Containe...原创 2018-02-09 21:33:29 · 4620 阅读 · 0 评论 -
Eclipse+Maven+Scala Project+Spark | 编译并打包wordcount程序
学习用Eclipse+Maven来构建并打包一个简单的单词统计的例程。 本项目源码已托管于Github –>【Spark-wordcount】第一步 在EclipseIDE中安装Scala插件在Eclipse中安装Scala插件 第二步 创建Scala Project创建Scala 项目 第三步 给Scala项目注入maven依赖将Scala原创 2018-01-12 18:47:18 · 4619 阅读 · 2 评论 -
配置和启动Spark | local模式以及standalone模式
Spark Local模式直接在 $SPARK_HOME/bin/spark-shell 中运行spark RDD程序,在UI界面http://nodename:4040/中可以看到jobs的执行情况[elon@spark ~]$ spark-shell --master localSetting default log level to "WARN".To adjust logg原创 2018-01-21 10:47:59 · 3434 阅读 · 0 评论 -
Spark调优与学习笔记
【1】数据本地行存储,将存储与计算同节点部署 【2】存储格式选择列式存储,如Parquet,减少读IO量,压缩比高,减少存储空间。 【3】选择合理的Partition Key,防止数据倾斜或任务倾斜。 【4】对复用的RDD进行cache缓存操作 【5】尽可能避免shuffle,如:用reduceByKey代替groupByKey 【6】尽可能实用Spark SQL实现Spark计算,因为...原创 2018-03-23 09:10:51 · 307 阅读 · 1 评论