spark
Ebaugh
今日之上达,无非他日之下学也————南怀瑾
展开
-
Yarn application has already ended! It might have been killed or unable to launch application master
spark-shell启动报错:Yarn application has already ended! It might have been killed or unable to launch application master查看日志报错:“Error: Could not find or load main class org.apache.spark.deploy.yarn...原创 2019-12-30 17:01:13 · 1185 阅读 · 1 评论 -
livy安装
下载wget http://mirror.bit.edu.cn/apache/incubator/livy/0.6.0-incubating/apache-livy-0.6.0-incubating-bin.zip解压到对应的路径unzip apache-livy-0.6.0-incubating-bin.zip修改配置名称修改mv apache-livy-0.6.0...原创 2019-12-19 16:43:36 · 423 阅读 · 0 评论 -
spark调度模式
不多说,直接上干货! 目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和spark on YARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,后两种则是未来发展的趋势,部分容错性和资源管理交由统一的资源管理系统完成:让Spark运行在一个通用的资源管理系统之上,这样可以与其他...转载 2019-03-22 19:52:01 · 335 阅读 · 0 评论 -
Spark中使用Java编程的常用方法
原文引自:http://blog.sina.com.cn/s/blog_628cc2b70102w9up.html一、初始化SparkContextSystem.setProperty("hadoop.home.dir", "D:\\spark-1.6.1-bin-hadoop2.6\\spark-1.6.1-bin-hadoop2.6");SparkConf conf = new S...转载 2019-05-17 10:40:31 · 402 阅读 · 0 评论 -
spark 算子java实例
在我看来,Spark编程中的action算子的作用就像一个触发器,用来触发之前的transformation算子。transformation操作具有懒加载的特性,你定义完操作之后并不会立即加载,只有当某个action的算子执行之后,前面所有的transformation算子才会全部执行。常用的action算子如下代码所列:(java版)package cn.spark.study.core;...转载 2019-05-17 14:37:09 · 475 阅读 · 0 评论 -
java spark RDD 算子 WordCount
package examples;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import...原创 2019-06-06 13:55:10 · 238 阅读 · 0 评论 -
win7 安装spark环境
前提条件:jdk:java -versionscala:scalajava-1.8 scala-2.11 安装好并且配置好环境变量官网下载spark版本对应的hadoop下载解压解压后启动进入spark-shell交互环境出现找不到winutils去https://github.com/steveloughran/winutils下载将winutils替换到...原创 2019-06-01 20:19:03 · 513 阅读 · 0 评论 -
spark-SQL -e -f 的用法
spark-sql -help出现用法提示spark-sql --database bigdata -e "select * from dw_results limit 1000;" > /home/results.txt--database 选择对应的hive数据库-e 对应的sql语句--num-exectors 10 对应的执行器数量--conf 设...原创 2019-07-16 16:14:22 · 2807 阅读 · 0 评论 -
spark Exception in thread "Thread-2" java.lang.OutOfMemoryError: PermGen space
spark 使用中会遇到的一些问题及解决思路 - xiao_jun_0820的专栏 - 博客频道 - CSDN.NEThttp://blog.csdn.net/xiao_jun_0820/article/details/450382057 内存溢出问题 在Spark中使用hql方法执行hive语句时,由于其在查询过程中调用的是Hive的获取元数据信息、SQL解析,并且使用Cglib等进行序列化...转载 2019-07-17 15:03:50 · 2185 阅读 · 0 评论 -
Spark性能优化的10大问题及其解决方案
问题1:reduce task数目不合适 解决方式: 需根据实际情况调节默认配置,调整方式是修改参数spark.default.parallelism。通常,reduce数目设置为core数目的2到3倍。数量太大,造成很多小任务,增加启动任务的开销;数目太少,任务运行缓慢。 问题2:shuffle磁盘IO时间长 解决方式: 设置spark.local.dir为多个磁盘,...转载 2019-07-17 15:10:59 · 1857 阅读 · 0 评论 -
使用Apache Spark让MySQL查询速度提升10倍以上
作者:Alexander Rubin链接:http://coyee.com/article/11012-how-apache-spark-makes-your-slow-mysql-queries-10x-faster-or-more 介绍在我的前一篇文章 Apache Spark with MySQL 中介绍了如何利用 Apache Spark 实现数据分析以及如何对大量...转载 2019-01-29 15:50:45 · 1815 阅读 · 0 评论 -
spark sql执行失败
1:运行 ./bin/spark-sql需要先把hive-site.xml 负责到spark的conf目录下[jifeng@feng02 spark-1.2.0-bin-2.4.1]$ ./bin/spark-sqlSpark assembly has been built with Hive, including Datanucleus jars on classpathjava....转载 2019-01-29 15:49:07 · 3280 阅读 · 0 评论 -
spark RDD
Spark学习之路 (三)Spark之RDD目录一、RDD的概述 1.1 什么是RDD? 1.2 RDD的属性 1.3 WordCount粗图解RDD 二、RDD的创建方式 2.1 通过读取文件生成的 2.2 通过并行化的方式创建RDD 2.3 其他方式 三、RDD编程API 3.1 Transformation 3.2 Action 3.3...转载 2018-09-14 14:53:38 · 186 阅读 · 0 评论 -
Spark history-server详解
概述这里作者和大家一起学习Spark 中的history-server,那他到底是什么呢?该如何去学习呢?我们可以带着下面几个问题进行详细的学习于思考:1. history-server产生背景2. history-server的作用3. 如何配置和使用4. history-server重要参数5. sc.stop的重要性6. REST API1 history-server产...转载 2018-10-15 14:53:08 · 771 阅读 · 0 评论 -
hive on spark
简介之前有写过hive on spark的一个文档,hive版本为2.0,spark版本为1.5。spark升级到2.0后,性能有所提升,程序文件的编排也和之前不一样,这里再更新一个最新的部署方式。spark2.0引入了spark session的概念,创建一个spark任务和之前也不一样,之前版本的hive并不能兼容spark2.0,所以推荐使用hive2.3以后的版本。安装步骤可参考...转载 2018-10-15 16:49:01 · 286 阅读 · 0 评论 -
spark RDD
Spark学习之路 (三)Spark之RDD讨论QQ:1586558083目录一、RDD的概述 1.1 什么是RDD? 1.2 RDD的属性 1.3 WordCount粗图解RDD 二、RDD的创建方式 2.1 通过读取文件生成的 2.2 通过并行化的方式创建RDD 2.3 其他方式 三、RDD编程API 3.1 Transformation ...转载 2018-10-17 17:12:38 · 131 阅读 · 0 评论 -
spark ui介绍
如果是集群模式,可以通过Spark日志服务器xxxxx:18088者yarn的UI进入到应用xxxx:8088,进入相应的Spark UI界面。主页介绍上面就是Spark的UI主页,首先进来能看到的是Spark当前应用的job页面,在上面的导航栏:1 代表job页面,在里面可以看到当前应用分析出来的所有任务,以及所有的excutors中action的执行时间。 2 代表stage...转载 2018-11-03 17:22:41 · 447 阅读 · 0 评论 -
spark算子系列
一.Action操作1.first:返回rdd中的以一个元素scala> var rdd = sc.makeRDD(Array(("A","1"),("B","2"),("C","3")),2)scala> rdd.first//输出结果为:(A,1)scala> var rdd = sc.makeRDD(Seq(10, 3, 1,转载 2018-11-03 18:50:09 · 313 阅读 · 0 评论 -
spark参数调优
资源参数调优了解完了Spark作业运行的基本原理之后,对资源相关的参数就容易理解了。所谓的Spark资源参数调优,其实主要就是对Spark运行过程中各个使用资源的地方,通过调节各种参数,来优化资源使用的效率,从而提升Spark作业的执行性能。以下参数就是Spark中主要的资源参数,每个参数都对应着作业运行原理中的某个部分,我们同时也给出了一个调优的参考值。num-executors参数...转载 2018-11-05 11:36:13 · 284 阅读 · 0 评论 -
spark web UI端口 4040,18080, 8080页面访问不了
ip:4040无法访问时spark history server未启动或者暂时无spark任务运行启动命令:在主节点spark_home/sbin./start-history-server.sh注意:4040端口显示的是正在运行的spark任务,一旦任务运行完成或者没有任务运行,4040端口是无法访问的ip:18080无法访问时spark history server未...原创 2019-01-29 15:36:12 · 11464 阅读 · 2 评论 -
spark rdd宽窄依赖及执行过程
术语解释 窄依赖和宽依赖 RDD之间有一系列的依赖关系,依赖关系又分为窄依赖和宽依赖。窄依赖父RDD和子RDD partition之间的数据关系是一对一的。或者父RDD一个partition只对应一个子RDD的partition情况下的父RDD和子RDD partition关系是多对一的。不会有shuffle的产生。宽依赖父RDD与子RDD partit...转载 2018-09-14 14:51:22 · 497 阅读 · 0 评论