第一步 下载IDEA 安装 scala 插件
第二步 新建Scala 项目 TFinn
导入 spark-assemble-hadoop.jar 文件(具体可百度 下载)
我下载的是 spark-assembly-1.3.1-hd-2.6.0.jar 因为我使用的hadoop2.7.3 (吃过亏,嘿嘿) 本来以为版本不一致会出差错,试过可以的。
第三步 编写代码
package main.scala import org.apache.spark.{SparkContext, SparkConf} import org.apache.spark.SparkContext._ /** * Created by wen on 2017/3/6. */ object ReadFile { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("Join").setMaster("spark://xxx:7077") var sc = new SparkContext(conf) var textFile = sc.textFile("hdfs://master:9000/input/text1.txt") println("==========================") println("====count:====",textFile.count()) println(textFile.collect()) println("==========================") sc.stop() } }
第四步 导出 jar 文件
上传到 spark 目录下面
![]()
去掉没必要的jar
执行 ./bin/spark-submit --class main.scala.ReadFile TFinn.jar