先将下面代码打包
第一种方式
先backage然后打断点,然后Debug执行main方法
在idea中添加参数
①点击Run下的Edit Configurations
②配置Configuration页中的Program arguments选项,就可以在idea中传入参数,参数之间用空格隔开
如:file:///root/wc.txt(centos本地路径输入/root/wc.txt) file:///root/wc00(代表输出路径为/root/wc00),
如果是docker启动需要填写为hdfs路径
hdfs://192.168.1.101:9000/root/wc/input.txt hdfs://192.168.1.101:9000/root/wc00
Exception in thread “main” org.apache.hadoop.security.AccessControlException: Permission denied: user=Administrator, access=WRITE, inode="/root":root:supergroup:drwxr-xr-x
可能会出现这个异常参考
//设置用户访问权限这里用户名为hadoop的用户名请在代码中设置
System.setProperty(“user.name”,“bigdata”)
//或者采用下面方式
https://blog.csdn.net/xiaoshunzi111/article/details/52062640解决问题
执行代码如下:
package cn.itcast.spark.day1
import org.apache.spark.{SparkConf, SparkContext}
/**
* Created by root on 2016/5/14.
*/
object WordCount {
def main(args: Array[String]) {
//非常重要,是通向Spark集群的入口
val conf = new SparkConf().setAppName("WC")
//拷贝绝对路径上去
.setJars(Array("D:\\ideaWorkbase\\HelloSpark\\target\\hello-spark-1.0.jar"))
//填写ip地址和端口号上去
.setMaster("spark://192.168.1.101:7077")
val sc = new SparkContext(conf)
//textFile会产生两个RDD:HadoopRDD -> MapPartitinsRDD
sc.textFile(args(0)).cache()
// 产生一个RDD :MapPartitinsRDD
.flatMap(_.split(" "))
//产生一个RDD MapPartitionsRDD
.map((_, 1))
//产生一个RDD ShuffledRDD
.reduceByKey(_+_)
//产生一个RDD: mapPartitions
.saveAsTextFile(args(1))
sc.stop()
}
}
pom文件如下:
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>cn.itcast.spark</groupId>
<artifactId>hello-spark</artifactId>
<version>1.0</version>
<properties>
<maven.compiler.source>1.7</maven.compiler.source>
<maven.compiler.target>1.7</maven.compiler.target>
<encoding>UTF-8</encoding>
<scala.version>2.10.6</scala.version>
<spark.version>1.6.1</spark.version>
<hadoop.version>2.6.4</hadoop.version>
</properties>
<dependencies>
<dependency>
<groupId>org.scala-lang</groupId>
<artifactId>scala-library</artifactId>
<version>${scala.version}</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.10</artifactId>
<version>${spark.version}</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>${hadoop.version}</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql_2.10</artifactId>
<version>${spark.version}</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-streaming_2.10</artifactId>
<version>${spark.version}</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-streaming-kafka_2.10</artifactId>
<version>1.6.1</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-streaming-flume_2.10</artifactId>
<version>${spark.version}</version>
</dependency>
<dependency>
<groupId>mysql</groupId>
<artifactId>mysql-connector-java</artifactId>
<version>5.1.38</version>
</dependency>
<dependency>
<groupId>redis.clients</groupId>
<artifactId>jedis</artifactId>
<version>2.8.1</version>
</dependency>
</dependencies>
<build>
<sourceDirectory>src/main/scala</sourceDirectory>
<testSourceDirectory>src/test/scala</testSourceDirectory>
<plugins>
<plugin>
<groupId>net.alchim31.maven</groupId>
<artifactId>scala-maven-plugin</artifactId>
<version>3.2.2</version>
<executions>
<execution>
<goals>
<goal>compile</goal>
<goal>testCompile</goal>
</goals>
<configuration>
<args>
<arg>-make:transitive</arg>
<arg>-dependencyfile</arg>
<arg>${project.build.directory}/.scala_dependencies</arg>
</args>
</configuration>
</execution>
</executions>
</plugin>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-shade-plugin</artifactId>
<version>2.4.3</version>
<executions>
<execution>
<phase>package</phase>
<goals>
<goal>shade</goal>
</goals>
<configuration>
<filters>
<filter>
<artifact>*:*</artifact>
<excludes>
<exclude>META-INF/*.SF</exclude>
<exclude>META-INF/*.DSA</exclude>
<exclude>META-INF/*.RSA</exclude>
</excludes>
</filter>
</filters>
</configuration>
</execution>
</executions>
</plugin>
</plugins>
</build>
</project>''
第二种调试方法
Master和Worker是两个Java进程 他们启动的时候会加载一些参数 spark-env.sh这里边的环境变量
如何是使用远程debug
在Master端的spark-env.sh文件中添加如下参数
export SPARK_MASTER_OPTS="-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=10000"
start-master.sh
执行完这个脚本
jps
4828 – main class information unavailable
4860 Jps
通过一个IDE 建立一个remote application
172.16.0.11 10000
在本地的代码打断点
debug按钮开始调试
在Worker所在的配置文件中添加一个环境变量
export SPARK_WORKER_OPTS="-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=10001"
start-slave.sh spark://node-1.itcast.cn:7077
执行jps命令
2891 – main class information unavailable
2923 Jps
用一个IDE工具连接 建立一个remote application
172.16.0.12 10001
在本地的代码打断点
debug按钮开始调试
Debug app (–driver-java-options)
bin/spark-submit --class cn.itcast.spark.WC --master spark://node-1.itcast.cn:7077 --driver-java-options "-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=10002" /root/bigdata-2.0.jar hdfs://node-1.itcast.cn:9000/words.txt hdfs://node-1.itcast.cn:9000/wordsout
任务提交流程
spark-submit --class cn.itcast.spark.WordCount
bin/spark-clas -> org.apache.spark.deploy.SparkSubmit 调用这个类的main方法
doRunMain方法中传进来一个自定义spark应用程序的main方法class cn.itcast.spark.WordCount
通过反射拿到类的实例的引用mainClass = Utils.classForName(childMainClass)
在通过反射调用class cn.itcast.spark.WordCount的main方法
用一个IDE工具连接 建立一个remote application
172.16.0.13 10002
在本地的代码打断点
debug按钮开始调试
编译spark源码,编译spark对性能要求很高,找一台强大的机器,在有依赖的情况下需要半个小时,在没依赖情况下需要4个小时
1.目的
1.1.根据需要自定义编译spark相应的模块
1.2.修改spark源码并重新编译spark
2.环境需求
2.1.操作系统为CentOS6.x 64bit,安装了桌面
2.2.内存4G以上最佳
2.3.下载IDEA的Linux版本,用于修改Spark源码
3.步骤
3.1.安装JDK
3.2.安装Maven(版本3.0.5以上版本)
3.3.下载spark源码
使用spark的1.6.1版本和1.3.1版本,需要下载这两版本的源码
3.4.解压源码包
tar -zxvf spark-1.6.1.tgz -C /usr/local/src/
3.5.用Maven编译源码
export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"
cd /usr/local/src/spark-1.6.1/
mvn clean package -Phadoop-2.6 -Dhadoop.version=2.6.4 -Phive -Phive-thriftserver -Pyarn -DskipTests
注意:由于编译过程Maven需要下载依赖,编译的所在机器必须可以访问网络,甚至需要翻墙才可以编译成功,我已经下载好了编译所需要的Maven依赖,只需要将其上传到Linux系统上,然后解压到当前用户的.m2目录即可
tar -zxvf maven_repo.tgz -C ~/.m2
然后在执行编译
3.6.将需要修改的Spark模块导入到IDEA中
1.点击导入project
2.选择要导入的模块,然后点击OK
3.选择导入Maven项目,然后点击next
4.配置JDK
5.点击next和finish即可
6.修改spark的源码,然后编译打包
./make-distribution.sh --tgz -Phadoop-2.6 -Dhadoop.version=2.6.4 -Phive -Phive-thriftserver -Pyarn -DskipTests