Spark版本

起因:部门准备将数据仓库开发工具从Hive SQL大规模迁移至Spark SQL。此前集群已经自带了Spark-1.5.2,系HDP-2.3.4自带的Spark组件,现在需要将之升级到目前的最新版本(2.2.1)。作为一个提供给第三方使用的开发工具,应该避免第三方过度浪费时间于工具本身的使用(为S...

2019-02-14 22:00:47

阅读数 238

评论数 0

spark监控

有几种方法可以监控Spark应用程序:Web UI,指标和外部检测。 Web界面 默认情况下,每个SparkContext都会在端口4040上启动Web UI,以显示有关应用程序的有用信息。这包括: 调度程序阶段和任务的列表 RDD大小和内存使用情况的摘要 环境信息。 有关运行执行程序...

2019-02-14 21:55:06

阅读数 72

评论数 0

Spark常见问题汇总

1、Operation category READ is not supported in state standby      org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Oper...

2018-12-18 19:09:10

阅读数 61

评论数 0

搭建Spark所遇过的坑

一.经验 1.Spark Streaming包含三种计算模式:nonstate .stateful .window 2.kafka可通过配置文件使用自带的zookeeper集群 3.Spark一切操作归根结底是对RDD的操作 4.部署Spark任务,不用拷贝整个架包,只需拷贝被修改的文件,...

2018-09-03 16:26:54

阅读数 121

评论数 0

spark 2.X 疑难问题汇总

当前spark任务都是运行在yarn上,所以不用启动长进程worker,也没有master的HA问题,所以主要的问题在任务执行层面。作业故障分类故障主要分为版本,内存和权限三方面。 - 各种版本不一致 - 各种内存溢出 - 其他问题版本不一致1)java版本不一致报...

2018-06-25 22:36:57

阅读数 180

评论数 0

Spark SQL CLI 运行

1:运行 ./bin/spark-sql需要先把hive-site.xml 负责到spark的conf目录下 [jifeng@feng02 spark-1.2.0-bin-2.4.1]$ ./bin/spark-sql Spark assembly has been built ...

2018-05-21 22:33:32

阅读数 373

评论数 0

ClassNotFoundException: org.apache.spark.sql.hive.thriftserver.SparkSQLCLIDriver解决办法

我们通过源码编译的spark-2.3.0来启动spark-sql进行sql操作,结果出现如下错误:Spark assembly has been built with Hive, including Datanucleus jars on classpath java.lang.ClassNo...

2018-05-21 22:21:04

阅读数 1004

评论数 1

spark 包

 yaml依赖```    sudo pip install pyyaml```- spark依赖    将spark-2.2.1-bin-hadoop2.7/python/lib下的 `py4j-0.10.4-src.zip` 和 `pyspark.zip` 文件解压,    将解压后的文件放在...

2018-05-07 17:37:14

阅读数 170

评论数 0

spark与hive的集成

一:介绍1.在spark编译时支持hive  2.默认的db  当Spark在编译的时候给定了hive的支持参数,但是没有配置和hive的集成,此时默认使用hive自带的元数据管理:Derby数据库。  二:具体集成 1.将hive的配合文件hive-site.xml添加到spark应用的clas...

2018-04-24 14:25:27

阅读数 605

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭