spark远程调试debug及编译spark源码

最新推荐文章于 2023-01-19 20:39:57 发布

qq_16563637

最新推荐文章于 2023-01-19 20:39:57 发布

阅读量910

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/qq_16563637/article/details/82813458

版权

spark 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

先将下面代码打包
第一种方式
先backage然后打断点,然后Debug执行main方法
在idea中添加参数
①点击Run下的Edit Configurations
②配置Configuration页中的Program arguments选项，就可以在idea中传入参数，参数之间用空格隔开
如:file:///root/wc.txt(centos本地路径输入/root/wc.txt) file:///root/wc00(代表输出路径为/root/wc00),
如果是docker启动需要填写为hdfs路径
hdfs://192.168.1.101:9000/root/wc/input.txt hdfs://192.168.1.101:9000/root/wc00
Exception in thread “main” org.apache.hadoop.security.AccessControlException: Permission denied: user=Administrator, access=WRITE, inode="/root":root:supergroup:drwxr-xr-x
可能会出现这个异常参考
//设置用户访问权限这里用户名为hadoop的用户名请在代码中设置
System.setProperty(“user.name”,“bigdata”)
//或者采用下面方式
https://blog.csdn.net/xiaoshunzi111/article/details/52062640解决问题
执行代码如下:

package cn.itcast.spark.day1

import org.apache.spark.{SparkConf, SparkContext}

/**
  * Created by root on 2016/5/14.
  */
object WordCount {
  def main(args: Array[String]) {
    //非常重要，是通向Spark集群的入口
    val conf = new SparkConf().setAppName("WC")
    //拷贝绝对路径上去
  .setJars(Array("D:\\ideaWorkbase\\HelloSpark\\target\\hello-spark-1.0.jar"))
  //填写ip地址和端口号上去
  .setMaster("spark://192.168.1.101:7077")
    val sc = new SparkContext(conf)

    //textFile会产生两个RDD：HadoopRDD  -> MapPartitinsRDD
    sc.textFile(args(0)).cache()
      // 产生一个RDD ：MapPartitinsRDD
      .flatMap(_.split(" "))
      //产生一个RDD MapPartitionsRDD
      .map((_, 1))
      //产生一个RDD ShuffledRDD
      .reduceByKey(_+_)
      //产生一个RDD: mapPartitions
      .saveAsTextFile(args(1))
    sc.stop()
  }
}

pom文件如下:

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>cn.itcast.spark</groupId>
    <artifactId>hello-spark</artifactId>
    <version>1.0</version>

    <properties>
        <maven.compiler.source>1.7</maven.compiler.source>
        <maven.compiler.target>1.7</maven.compiler.target>
        <encoding>UTF-8</encoding>
        <scala.version>2.10.6</scala.version>
        <spark.version>1.6.1</spark.version>
        <hadoop.version>2.6.4</hadoop.version>
    </properties>

    <dependencies>
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>${scala.version}</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.10</artifactId>
            <version>${spark.version}</version>
        </dependency>

        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>${hadoop.version}</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_2.10</artifactId>
            <version>${spark.version}</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming_2.10</artifactId>
            <version>${spark.version}</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming-kafka_2.10</artifactId>
            <version>1.6.1</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming-flume_2.10</artifactId>
            <version>${spark.version}</version>
        </dependency>

        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
            <version>5.1.38</version>
        </dependency>

        <dependency>
            <groupId>redis.clients</groupId>
            <artifactId>jedis</artifactId>
            <version>2.8.1</version>
        </dependency>

    </dependencies>

    <build>
        <sourceDirectory>src/main/scala</sourceDirectory>
        <testSourceDirectory>src/test/scala</testSourceDirectory>
        <plugins>
            <plugin>
                <groupId>net.alchim31.maven</groupId>
                <artifactId>scala-maven-plugin</artifactId>
                <version>3.2.2</version>
                <executions>
                    <execution>
                        <goals>
                            <goal>compile</goal>
                            <goal>testCompile</goal>
                        </goals>
                        <configuration>
                            <args>
                                <arg>-make:transitive</arg>
                                <arg>-dependencyfile</arg>
                                <arg>${project.build.directory}/.scala_dependencies</arg>
                            </args>
                        </configuration>
                    </execution>
                </executions>
            </plugin>

            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-shade-plugin</artifactId>
                <version>2.4.3</version>
                <executions>
                    <execution>
                        <phase>package</phase>
                        <goals>
                            <goal>shade</goal>
                        </goals>
                        <configuration>
                            <filters>
                                <filter>
                                    <artifact>*:*</artifact>
                                    <excludes>
                                        <exclude>META-INF/*.SF</exclude>
                                        <exclude>META-INF/*.DSA</exclude>
                                        <exclude>META-INF/*.RSA</exclude>
                                    </excludes>
                                </filter>
                            </filters>
                        </configuration>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>


</project>''

第二种调试方法
Master和Worker是两个Java进程他们启动的时候会加载一些参数 spark-env.sh这里边的环境变量

如何是使用远程debug

在Master端的spark-env.sh文件中添加如下参数

export SPARK_MASTER_OPTS="-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=10000"

start-master.sh
执行完这个脚本
jps
4828 – main class information unavailable
4860 Jps

通过一个IDE 建立一个remote application
172.16.0.11 10000
在本地的代码打断点
debug按钮开始调试

在Worker所在的配置文件中添加一个环境变量

export SPARK_WORKER_OPTS="-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=10001"
start-slave.sh spark://node-1.itcast.cn:7077

执行jps命令
2891 – main class information unavailable
2923 Jps

用一个IDE工具连接建立一个remote application
172.16.0.12 10001
在本地的代码打断点
debug按钮开始调试

Debug app （–driver-java-options）

bin/spark-submit --class cn.itcast.spark.WC --master spark://node-1.itcast.cn:7077 --driver-java-options "-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=10002" /root/bigdata-2.0.jar hdfs://node-1.itcast.cn:9000/words.txt hdfs://node-1.itcast.cn:9000/wordsout

任务提交流程
spark-submit --class cn.itcast.spark.WordCount

bin/spark-clas -> org.apache.spark.deploy.SparkSubmit 调用这个类的main方法

doRunMain方法中传进来一个自定义spark应用程序的main方法class cn.itcast.spark.WordCount

通过反射拿到类的实例的引用mainClass = Utils.classForName(childMainClass)

在通过反射调用class cn.itcast.spark.WordCount的main方法

用一个IDE工具连接建立一个remote application
172.16.0.13 10002
在本地的代码打断点
debug按钮开始调试
编译spark源码,编译spark对性能要求很高,找一台强大的机器,在有依赖的情况下需要半个小时,在没依赖情况下需要4个小时
1.目的
1.1.根据需要自定义编译spark相应的模块
1.2.修改spark源码并重新编译spark
2.环境需求
2.1.操作系统为CentOS6.x 64bit，安装了桌面
2.2.内存4G以上最佳
2.3.下载IDEA的Linux版本，用于修改Spark源码
3.步骤
3.1.安装JDK
3.2.安装Maven(版本3.0.5以上版本)
3.3.下载spark源码
使用spark的1.6.1版本和1.3.1版本，需要下载这两版本的源码
3.4.解压源码包
tar -zxvf spark-1.6.1.tgz -C /usr/local/src/
3.5.用Maven编译源码
export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"
cd /usr/local/src/spark-1.6.1/
mvn clean package -Phadoop-2.6 -Dhadoop.version=2.6.4 -Phive -Phive-thriftserver -Pyarn -DskipTests

注意：由于编译过程Maven需要下载依赖，编译的所在机器必须可以访问网络，甚至需要翻墙才可以编译成功，我已经下载好了编译所需要的Maven依赖，只需要将其上传到Linux系统上，然后解压到当前用户的.m2目录即可
tar -zxvf maven_repo.tgz -C ~/.m2
然后在执行编译
3.6.将需要修改的Spark模块导入到IDEA中
1.点击导入project

2.选择要导入的模块，然后点击OK

3.选择导入Maven项目，然后点击next

4.配置JDK

5.点击next和finish即可

6.修改spark的源码，然后编译打包
./make-distribution.sh --tgz -Phadoop-2.6 -Dhadoop.version=2.6.4 -Phive -Phive-thriftserver -Pyarn -DskipTests