HDFS上传文件与Spark执行

最新推荐文章于 2024-04-16 00:00:00 发布

OddBillow

最新推荐文章于 2024-04-16 00:00:00 发布

阅读量997

点赞数

分类专栏： Spark 文章标签： HDFS Spark

本文链接：https://blog.csdn.net/quitozang/article/details/84198123

版权

Spark 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

根据并行度与文件大小设置Block大小，上传脚本：

hadoop dfs -D dfs.block.size=42724400 -D io.bytes.per.checksum=100 /
-D dfs.namenode.fs-limits.min-block-size=324000  -put BytePaviaU /home/zangtt/original-2.txt

Spark submit脚本：

spark-submit --class Main --master spark://localhost:7077 /
/home/zangtt/IdeaProjects//FinalParallelFusion/out/artifacts/FinalParallelFusion_jar/FinalParallelFusion.jar /
local[*] /home/zangtt/Data/zqt/PaviaU.txt /home/zangtt/Data/zqt/PaviaU_gt.txt /
/home/zangtt/Data/zqt/index_org.txt 1 4 hdfs://localhost:9000/home/zangtt/original-4.txt