Spark
文章平均质量分 54
Spark学习实战问题笔记
@TangXin
路漫漫其修远兮,吾将上下而求索。
展开
-
IDEA添加maven依赖jar
文章目录1.统一jar包路径2.添加到maven库3.修改pom文件4.提交到Linux运行4.1 把外部依赖jar上传到Linux服务器4.2 提交任务1.统一jar包路径把需要添加到maven的外部依赖jar包,统一存放路径:D:\MavenJar\SparkDemo-1.0-SNAPSHOT.jar2.添加到maven库mvn install:install-file -Dfile=SparkDemo-1.0-SNAPSHOT.jar -DgroupId=com.learning -Dart原创 2021-07-23 09:01:33 · 763 阅读 · 0 评论 -
Kerberos环境下Oozie使用Shell方式调度Spark程序WordCount
问题集群环境:Ambari2.7.3 + HDP3.0.1.0-187使用Oozie调度,使用jar的时候,有两种jar包,一种是项目打包,包含依赖的jar包,包比较大,一种是项目打包,不包含依赖的jar包,包比较小。在使用Oozie调度项目jar包时,发现,调度包含依赖的jar包,报错:java.lang.NumberFormatException: For input string: "30s"在使用Oozie调度项目jar包时,发现,调度不包含依赖的jar包,成功。这就很难受,那么有没有原创 2021-05-22 17:24:48 · 403 阅读 · 0 评论 -
SparkSQL查询与HBase关联的Hive外部表,查询失败
1.问题集群环境:Ambar i2.7.3 + HDP 3.0.1.0Hive中创建一个外部表,外部表是HBase中的表,想通过SparkSQL进行查询。在Hive中使用HQL查询,正确执行,得出正确结果(示例表是空表)。在使用SparkSQL查询时,报错:error in initSerDe: java.ClassNotFoundException Class org.apache.hadoop.hive.hbase.HBaseSerDe not found解决办法拷贝以下jar包到原创 2021-05-21 14:11:40 · 1768 阅读 · 2 评论 -
Kerberos Spark读取HDFS的文件报错:Can‘t get Master Kerberos principal for use as renewer
问题:集群开启Kerberos安全认证,IDEA中编写Scala代码,使用Spark读取HDFS中的文件,报错:Can’t get Master Kerberos principal for use as renewer具体报错如下:Exception in thread "main" java.io.IOException: Can't get Master Kerberos principal for use as renewer at org.apache.hadoop.mapreduce.s原创 2021-03-30 10:42:47 · 4107 阅读 · 3 评论 -
SparkSubmit-提交流程源码分析
文章目录1.提交命令2.源码分析3.名词解析1.提交命令在实际生产中,都是使用 yarn-cluster 模式提交 spark 任务,例如:spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \--deploy-mode client \./examples/jars/spark-examples_2.11-2.3.2.3.1.0.0-78.jar \102.源码分析执行提交命令之后,首先会调用原创 2021-02-24 16:56:10 · 578 阅读 · 0 评论 -
Spark-RDD转换算子-map
文章目录RDD算子算子类型数据类型mapTransformationValue类型函数签名:def map[U: ClassTag](f: T => U): RDD[U]函数说明:将处理的数据 逐条 进行映射转换,这里的转换可以是类型的转换,也可以是值的转换。函数示例:import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** *原创 2021-01-18 10:54:03 · 606 阅读 · 0 评论 -
Spark三种提交任务模式
文章目录1.Standalone2.Yarn-Cluster3.Yarn-Client1.Standalone任务提交流程:Spark-Submit 提交任务给 Master;Master 收到任务请求后,通过 LaunchDriver 向合适的 Worker 请求启动 Driver;Worker 收到请求后启动 Driver;Driver 启动后向 Master 注册用户App信息;Master 收到 App 信息后根据资源的情况向 Worker 发送 launchExecutor 启动原创 2020-12-07 17:11:42 · 684 阅读 · 2 评论 -
Spark2自定义Driver和Executor端口范围
文章目录1.配置端口范围2.配置文件修改3.集群验证组件版本Ambari2.7.3HDP3.1.0.0-78Spark22.3.2Spark 的 Driver 和 Executor 之间通讯端口是随机的,Spark 会随选择 1024~65535(含) 之间的端口,因此在集群节点之间需要关闭防火墙。1.配置端口范围spark.driver.port=10000spark.blockManager.port=20000spark.port.maxRet原创 2020-12-04 18:40:10 · 2209 阅读 · 0 评论 -
Intel Hibench 完成 HDP-Spark 测试
文章目录1.综述2.下载编译3.修改配置文件3.1 conf/spark.conf3.2 conf/hadoop.conf3.3 conf/hibench.conf4.运行5.report结果查询1.综述环境版本虚拟操作系统Centos7.5Ambari2.7.3HDP3.1.0.0项目GitHub地址:https://github.com/intel-hadoop/HiBenchHiBench 是一个大数据基准套件,可以帮助评估不同的大数据框架在速度、吞吐原创 2020-09-18 16:23:22 · 593 阅读 · 0 评论 -
hive-testbench完成TPC-DS测试
文章目录0.初始化配置1.生成数据2.测试脚本准备3.运行脚本3.1 准备3.2 执行sql0.初始化配置Hive 3.1.0默认开启ACID功能,且新建的内表默认是ACID表(Hive事务表)。但Spark目前还不支持Hive的ACID功能,因此无法读取ACID表的数据。为解决此问题,测试前,需对Spark及Hive进行先期配置,使Spark2.3.2能够读取Hive 3.1.0内部表。于Ambari界面修改配置如下:Spark2.3.2配置如下:修改前修改后metast原创 2020-09-17 14:50:16 · 1728 阅读 · 0 评论 -
Spark-SQL源码分析之核心流程
文章目录1. 示例2. Spark-SQL解析思路3. 用户构建SparkSession,调用sql函数4. 构建 SessionState4.1 解析器4.1.1 Antlr4基本概念4.1.2 sqlParser解析4.1.3 代码执行流程4.1.4 sqlParser源码分析4.2 Catalog4.3 分析器4.3.1 Analyzer解析4.3.2 Analyzer源码分析4.4 优化器4.4.1 Optimizer解析4.4.2 Optimizer源码分析4.5 Planner4.5.1 Spa原创 2020-09-11 09:03:51 · 2053 阅读 · 2 评论 -
Spark-RDD学习笔记
文章目录1.RDD 概述1.1 什么是 RDD1.2 RDD 属性1.3 创建 RDD2.RDD 编程 API2.1 Transformation2.2 Action2.3 练习3.RDD 的依赖关系1.RDD 概述1.1 什么是 RDDRDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询原创 2020-08-25 11:39:44 · 360 阅读 · 0 评论 -
Ambari2.7.3-Spark2.3.2 提交wordcount任务
文章目录1.数据准备2.执行命令1.数据准备hello worlddog fishhadoopsparkhello worlddog fishhadoopsparkhello worlddog fishhadoopspark2.执行命令sc.textFile("hdfs://managerhd.bigdata:8020/wordcount").flatMap(_...原创 2020-03-20 14:29:15 · 408 阅读 · 0 评论 -
Ambari2.7.3-Spark2.3.2提交任务
文章目录1.本地运行模式 (单机)2.spark standalone模式【必须启动master和worker】3.spark on yarn模式【一定别启动master和worker】1.本地运行模式 (单机)spark-shell --master local2.spark standalone模式【必须启动master和worker】spark-shell --master ...原创 2020-03-20 11:23:24 · 867 阅读 · 0 评论 -
spark2-release-HDP-2.6.4.0-91-tag在CentOS7上的源码编译
文章目录Spark2编译准备下载:maven环境搭建Scala环境搭建Spark2编译设置 make-distribution.sh执行编译命令Spark2编译准备下载:https://github.com/hortonworks/spark2-release/releases/tag/HDP-2.6.4.0-91-taghttps://github.com/hortonworks/sp...原创 2019-06-19 13:39:46 · 724 阅读 · 0 评论 -
java spark报错:Task not serializable
在spark内存计算JavaPairRDD<String, Integer> results = listRDD.reduceByKey(new Function2<Integer, Integer, Integer>() { @Override public Integer call(Integer s1, Integer s2) throws E...原创 2018-12-14 11:29:30 · 1123 阅读 · 0 评论