Spark项目问题记录

问题一,maven打包

spark项目,idea编译器,导入jar包的方式打包没问题,用maven导包之后编译还按照之前的Project Structure方式打包,执行spark-submit报错:Exception in thread “main” java.lang.SecurityException: Invalid signature file digest for Manifest main attributes

Exception in thread "main" java.lang.SecurityException: Invalid signature file digest for Manifest main attributes
        at sun.security.util.SignatureFileVerifier.processImpl(SignatureFileVerifier.java:286)
        at sun.security.util.SignatureFileVerifier.process(SignatureFileVerifier.java:239)
        at java.util.jar.JarVerifier.processEntry(JarVerifier.java:317)
        at java.util.jar.JarVerifier.update(JarVerifier.java:228)
        at java.util.jar.JarFile.initializeVerifier(JarFile.java:348)

可以对打好的jar包执行 zip -d xxx.jar ‘META-INF/.SF’ ‘META-INF/.RSA’ ‘META-INF/*SF’
命令会删除jar包里边的相关文件。
出现这个问题的原因应该是引用的第三方jar包里边有一些证书文件之类的。
当然也可以采用mvn打包的方式,在terminal里边执行mvn clean package
pom相关配置:

<plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-shade-plugin</artifactId>
                <version>2.2</version>
                <executions>
                    <execution>
                        <id>make-assembly</id>
                        <phase>package</phase>
                        <goals>
                            <goal>shade</goal>
                        </goals>
                    </execution>
                </executions>
                <configuration>
                    <filters>
                       <filter>
                            <artifact>spark-streaming-twitter_2.10:spark-streaming-twitter_2.10</artifact>
                            <includes>
                                <include>**</include>
                            </includes>
                        </filter>
                        <filter>
                            <artifact>*:*</artifact>
                            <excludes>
                                <exclude>META-INF/*.SF</exclude>
                                <exclude>META-INF/*.DSA</exclude>
                                <exclude>META-INF/*.RSA</exclude>
                                <exclude>META-INF/*.MF</exclude>
                                <exclude>junit:junit</exclude>
                                <exclude>org.apache.maven:lib:tests</exclude>
                            </excludes>
                        </filter>
                    </filters>
                </configuration>
            </plugin>

问题二,sbt打包

直接用sbt package只会将程序打包,而依赖的jar包不会包含到同一个jar包中,可以使用sbt-assembly插件,他的作用可以把依赖包都打到一个jar文件中(Fat jar)
可以参考:
http://todu.top/spark/sbt-idea-%E5%85%A5%E9%97%A8%E5%8F%8A%E9%85%8D%E7%BD%AE/
他的排版我觉得不好看,可以查看转载版:
http://blog.csdn.net/x1066988452/article/details/51672660
不过里边有个问题他说的不对:关于assemblyPackageDependency,我不知道他有没有把打好的包运行成功,不过git上明明写着:

To make a JAR file containing only the external dependencies, type 
>assemblyPackageDependency

也就是只包含依赖包,不会包含你的代码,我试了一下,可以把和jar包同一个路径下边的classes里边的文件夹直接拷到jar包里边,可以运行。我觉得可以用assemblyPackageDependency把依赖包打好了,然后用sbt clean package只打程序包,在spark-submit时引用dependency,这样dependency不需要动,每次打包比较小。
或者这样可以这样打包:

sbt clean assembly

他会把所有依赖和你自己写的代码都放到一个jar包中。

问题三,textFile读文件

textFile(path1/*)的方式会吧path1路径下边的文件都读到rdd中,但是如果path1是个空路径,接着向下执行到action算子时会报错,可以判断一下path1下边大小

val conf = new Configuration()
val fileSystem = FileSystem.get(conf)
fileSystem.getContentSummary(new Path(path)).getLength

fileSystem.getFileStatus(new Path(path)).getLen
可以得到文件的大小,如果是目录会得到0

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值