spark
文章平均质量分 53
青山流水在深谷
大数据开发
展开
-
spark-2.4.2-bin-2.6.0-cdh5.13.0 源码编译
这里写自定义目录标题下载设置CDH附加仓库地址 和镜像加速编译环境准备[非必要] 根据需求修改scala版本源码编译问题解决scala版本错配参考文档下载spark https://archive.apache.org/dist/spark/spark-2.4.2/maven http://maven.apache.org/download.cgihadoop hadoop-2.6.0-cdh5.13.0设置CDH附加仓库地址 和镜像加速.m2/setting.xml新增仓库地址原创 2022-04-01 15:12:49 · 187 阅读 · 0 评论 -
MySQL文本类型Text过小引起的错误
问题描述业务流程前端执行Spark-SQL后,会根据后台Spark- SQL的执行状况,计算出SQL的执行进度,并且将执行进度【百分比】存储到redis,对应的是前端SQL唯一标识,当Spark-SQL执行完毕时,会讲执行进度置为100%,并存储到mysql中,执行完毕分为正常执行完毕,会将返回存储对应的文本字段;执行失败后,会讲失败信息存入同样文本字段。然后删除redis对应的前端SQL唯一标识。问题但是某次Spark-SQL执行完毕后,一直进度为0,并无法继续执行定位查看后台日原创 2022-02-17 16:10:53 · 1140 阅读 · 0 评论 -
Spark-SQL 多维度聚合优化
1.问题描述问题描述上线一个SQL任务,发现其本身输入表都不打,基本都在百万级别以内,但是能够耗时几个小时,故进行优化2.优化思路2.1 并行度根据运行指标发现,各个stage运行时间,应该是某个stage下的task发生倾斜进一步跟踪stage,发现 task读写数据不是很大,只有几百KB,只要shuffle时才比较大,因此判断并行度无益于作业优化stage 3622.2 shuffle ,聚合shuflle分析各个job的数据,发现也不是很大,无需改变shuffle时原创 2022-01-18 15:06:02 · 2062 阅读 · 1 评论 -
java.lang.ClassNotFoundException: org.apache.hadoop.hive.ql.metadata.HiveException
这里写自定义目录标题错误检查本次原因解决错误spark 读取hive时,出现如下错误java.lang.ClassNotFoundException: org.apache.hadoop.hive.ql.metadata.HiveException检查依赖检查<properties> <scala.version>2.11.8</scala.version> <spotless.version>1.31.3</spot原创 2021-06-15 15:43:40 · 4101 阅读 · 0 评论 -
spark 提交job运行流程
前言spark在提交任务到集群后,会有一系列的处理,从根据任务代码构建DAG,再到根据shuffle算子切分stage,然后生成taskset提交到集群管理进行调度等等,都需要一个比较清晰的流程梳理,便于问题定位,也利于性能优化流程通过测试和观察spark ui,spark会将依赖jar提前上传至hdfs目录,用于后续executor的分发和使用流程机构图【基于 yarn-cluster模式)流程解析准备1.spark client通过spark-submit或API,进行任务原创 2021-05-31 18:48:24 · 340 阅读 · 0 评论 -
spark on yarn资源配置
集群spark on yarn , spark允许yarn集群之上,资源【cpu,内存】划分从yarn集群进行分配spark相关资源设置 # 开启动态资源分配 spark.dynamicAllocation.enabled = true spark.shuffle.service.enabled = true # 动态资源分配时,每个driver分配最小executor spark.dynamicAllocation.minExecuto原创 2021-05-27 17:59:07 · 322 阅读 · 0 评论 -
spark 2.x使用 udf
spark SQL代码如下package com.wacai.blogimport org.apache.spark.sql.{DataFrame, SparkSession}object SparkUDF { def isAdult(age:Int):Boolean ={ if(age>18){ true }else{ false } } /** * spark sql的udfs用法 * <1> 匿名注册 s原创 2021-05-17 23:29:49 · 186 阅读 · 0 评论 -
spark on yarn 作业执行流程
spark application会有几个job,取决于调用了几次DAGScheduler.如果是spark SQL则取决相应的实现,会存在job group 的情况(多个job)RDD一般是一个action有一个job,如果take,sample。另外checkpoint也触发一个job.Spark client模式下,所有的jar和资源都是和driver在一起,不会出现jar丢失的情况,spark可以从hdfs上读取spark cluster模式下,会出现无法找到jar...原创 2021-03-30 15:21:08 · 747 阅读 · 0 评论 -
spark启动报错 java.lang.NoSuchMethodError: scala.Predef$.refArrayOps([Ljava/lang/Object;)
原因:细微版本差别时,如果scala版本跟spark自带的或引入的scala-lang版本不一致,会报上述错误解决:检查scala-sdk与scala-lang的版本是否同属于同一个小版本,若否,则修改为一致即可,以下方式根据自身情况二选一。...原创 2021-03-29 17:58:23 · 875 阅读 · 0 评论 -
spark shuffle算子
MapReduce基于MapReduce编程思想的spark运行程序,仍然是以先运行map端程序,将map程序处理的结果溢写到磁盘,然后执行reduce端程序进行shuffle操作,对map端处理结果进行处理,得到最终结果。spark driver端将程序创建成job后,通过DAGSchduler将其转换为DAG,然后根据shuffle算子,将其切分为多个stage,stage保证多个任务,形...原创 2020-02-24 23:12:40 · 1258 阅读 · 0 评论 -
spark开发一点总结
1.广播变量将广播变量生成后,通过collect,collectAsMap 全部拉取到Driver端,然后广播出去2.spark 广播视图表(默认是10兆,超过不会广播)a> df.registerTempTable("smalltable")spark.sql(CACHE TABLE smalltable")2.设置广播视图表大小spark.sql.autoBroadc...原创 2019-12-02 15:56:24 · 268 阅读 · 0 评论 -
Spark+livy+kerber 通过API访问远程Hadoop集群(Kerberos认证)
1.生成本地主机秘钥进行配置2.安装Kerberos 客户端ubuntu:centos:yum install krb5-user libpam-krb5 libpam-ccreds auth-client-configyum install krb5-workstation2.配置本地的hostname-ip 在远程集群livy,Kerberos集...原创 2019-08-14 18:29:05 · 72 阅读 · 1 评论 -
基于ambari安装Kerberos client
1.安装kerberos依赖包(可以不安装,此为Ubuntu 依赖)yum install krb5-user libpam-krb5 libpam-ccreds auth-client-configyum install krb5-workstation2.拷贝kerberos 集群的 /etc/krb5.conf 到本地3.创建 本地client 访问Kerberos集群...原创 2019-03-26 15:13:28 · 530 阅读 · 0 评论 -
基于 ambari 安装 Kerberos 问题总结
更多问题解决来源https://steveloughran.gitbooks.io/kerberos_and_hadoop/content/sections/errors.html(包含大部分Kerberos问题,票据,server)https://www.bbsmax.com/A/rV574Yk9dP/1.问题:2019-03-22 20:53:01 WARN ScriptBa...原创 2019-03-26 15:12:03 · 2525 阅读 · 0 评论 -
spark + hadoop 访问 基于Kerberos 安全认证、授权的hdfs集群
1.在本地安装kerberos client 组件yum install krb5-user libpam-krb5 libpam-ccreds auth-client-configyum install krb5-workstation2.拷贝kerberos 集群的 /etc/krb5.conf 到本地 的 /etc/ (覆盖组件初始化的krb5.conf)3.拷贝...原创 2019-03-16 12:34:13 · 6867 阅读 · 1 评论 -
基于ambari+hdfs 搭建Kerberos集群
1.下载jce并解压至JAVA_HOME/jre/lib/security目录下,AMbari所有节点均需要http://www.oracle.com/technetwork/java/javase/downloads/jce8-download-2133166.htmlunzip -o -j -q jce_policy-8.zip -d$JAVA_HOME/jre/lib/secur...原创 2019-03-16 12:14:11 · 1575 阅读 · 0 评论 -
pyspark以spark-submit 运行Python程序
1.压缩工程文件sudo zip -r 项目.zip.gz ./*2.配置PYTHONPATH,指向该目录3.工程下创建配置文件conf.py文件AI_PLATFORM_SOURCE=r'/usr/项目.zip'2.代码引用外部模块#从conf引用模块路径from conf import 项目路径sys.path.append(项目路径)from settings i...原创 2019-01-07 15:30:47 · 13741 阅读 · 5 评论 -
H2O-Spark : 使用H2O GBM运行在Spark 集群
from h2o.estimators.gbm import H2OGradientBoostingEstimatorfrom pysparkling import *#from h2o.estimators.deeplearning import H2ODeepLearningEstimatorss = SparkSession.builder.appName("H2O-GBM")....原创 2018-11-24 17:06:06 · 1039 阅读 · 0 评论 -
Spark-Submit脚本执行
如果使用的spark://,那么代表就是standalone模式,那么就需要sbin/start-all.sh启动一下spark集群进行资源调度。/usr/spark/sbin/start-all.sh ---启动spark集群所有节点而 /usr/spark/sbin/start-master.sh 则是在驱动器节点进行启动主节点(master),/usr/spark/sbin/star原创 2018-01-22 15:46:20 · 873 阅读 · 0 评论 -
Zookeeper+Kafka+Spark 管理offset 出现第三方jar版问题
Exception in thread "main" java.lang.NoSuchMethodError: org.apache.curator.utils.PathUtils.validatePath(Ljava/lang/String;)V at org.apache.curator.framework.imps.NamespaceImpl.<init>(NamespaceIm...原创 2018-04-08 10:23:00 · 445 阅读 · 1 评论 -
spark-submit 以yarn-cluter 提交job 定位错误之旅
最近用spark结合开发spark程序,发现挺方便,但是遇到不少问题,其中就是spark-submit 提交作业,折腾了我一天,闲言少叙,上问题:1.提交作业spark-submit --class com.myd.cn.SparkTest --master yarn --deploy-mode cluster --executor-memory 2g --jars /...原创 2018-04-01 11:24:34 · 1507 阅读 · 0 评论 -
Spark 源码编译
1.下载源码包,本文一spark 1.6.3(其他相似)http://spark.apache.org2.解压文件 tar xzvf spark.tgz3.进入解压目录 开始编译修改pom.xml 添加cdh支持(非cdh,可以忽略) <repository> <id>cloudera</id> <url...原创 2018-04-05 20:58:33 · 462 阅读 · 0 评论 -
state should be open
java.lang.IllegalStateException: state should be: open at com.mongodb.assertions.Assertions.isTrue(Assertions.java:70) at com.mongodb.connection.BaseCluster.selectServer(BaseCluster.java:8...原创 2018-04-24 10:12:30 · 13902 阅读 · 4 评论 -
Kafka 网络中断导致leader,follower不断进行协调,导致无法处理消息
1.spark streaming 持续如下打印日志,无法进行任务处理,并无报错AbstractCoordinator: (Re-)joining group testpAbstractCoordinator: (Re-)joining group testpAbstractCoordinator: (Re-)joining group testp2.查看zookeeper...原创 2018-04-20 15:26:27 · 2383 阅读 · 0 评论 -
spark-submit相关
1.shell 脚本exec $SPARK_HOME/bin/spark-submit \--class com.bigeyedata.mort.Main \--driver-class-path $MORT_HOME/libs/*.jar \--master yarn-client \--deploy-mode cluster \--jars /appcom/mort/thirdparty_ja...原创 2018-07-12 14:45:31 · 306 阅读 · 0 评论 -
Spark调度-livy 安装使用
1.下载压缩包,解压https://www.apache.org/dyn/closer.lua/incubator/livy/0.5.0-incubating/livy-0.5.0-incubating-bin.zipunzip livy-0.5.0-incubating-bin.zip 2.配置环境变量vim .profile(ubuntu,redhat/centos .bash_p...原创 2018-07-12 14:46:32 · 1663 阅读 · 0 评论 -
定时 关闭Spark-Submit ,Kafka
一.spark-submitvim stopSparksubmit.sh#! /bin/basha=0while true do#SparkSubmitid=`/usr/jdk8/bin/jps | /bin/grep -v grep | /bin/grep SparkSubmit | /usr/bin/cut -d " " -f 1`SparkSubmitid=`/usr/jdk8/bi...原创 2018-07-12 16:21:34 · 1279 阅读 · 0 评论 -
spark streaming 总结
1.查看topic是否正常: topic副本,leader可在集群任何节点执行opt/kafka_2.11-0.10.0.0/bin/kafka-topics.sh --describe --zookeeper 10.25.133.192:12181,10.26.51.89:12181/kafka10 --topic nongfunginxlog查看当前的offset,消息数...原创 2019-11-22 15:04:58 · 151 阅读 · 0 评论 -
Spark 启停应用
启动jerry用户:mongo:mongod --dbpath=opt/mongodb-3.4.0/data/db/ --logpath=opt/mongodb-3.4.0/log/mongod.logmongod --dbpath=opt/mongodb-3.4.0/data/db/ --logpath=opt/mongodb-3.4.0/log/mongod.log --aut...原创 2019-12-02 16:00:33 · 174 阅读 · 0 评论 -
Spark 错误
== Analyzed Logical Plan ==count: bigintAggregate [count(1) AS count#2143214L]+- TypedFilter <function1>, interface org.apache.spark.sql.Row, [StructField(ip,StringType,true), StructField(use...原创 2019-12-02 15:59:59 · 299 阅读 · 0 评论 -
pyspark RDD 入门
#import pyhdfs#顶级项目目录#from spark.demo import demo2#! /usr/bin/python# -*- coding:utf-8 -*-import sysfrom pyspark.sql import SparkSessionimport operator as opclass PropertiesUtil: ...原创 2018-07-30 03:35:41 · 498 阅读 · 0 评论 -
Spark 开发优化
文件存储分区规则: /houseId=?/dayId=?/hourId=?/minutet=5(5分钟产生一个文件)存在问题:1.收敛参数coalesce失效,小文件特别多不同houseId(区域)的数据差异很大(如北上广与新疆西藏订单数据),导致清洗产生大量小文件100G原始文件,清洗后产生10万多个文件2.数据入库延迟大因为kafka 不同分区流速差异大,HDFS数据有延迟几个...原创 2018-07-30 03:57:36 · 291 阅读 · 0 评论 -
spark 特征工程
一. 数据输入 test.csvid,checking,duration,history,purpose,amount,savings,employed,installp,marital,coapp,resident,property,age,other,housing,existcr,job,depends,telephon,foreign,good_bad1,1,6,4,3,1169,5...原创 2018-10-18 17:51:41 · 337 阅读 · 0 评论 -
Spark+hadoop 开发总结
错误总结:1.Caused by: java.lang.ClassNotFoundException: scala.xml.MetaData解决:POM配置依赖dependency>dependency>2.版本冲突Exception in thread "main" java.lang.NoSuchMethodError: scala.Predef$.$scope()Lsca原创 2018-01-22 14:37:54 · 4216 阅读 · 0 评论