package com.tzb.bigdata.spark
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
object WordCount{
def main(args: Array[String]): Unit = {
//使用开发工具完成Spark WordCount的开发
//local模式
//创建SparkConf对象
//设定Spark计算框架的运行(部署)环境
//app id
val config : SparkConf = new SparkConf().setMaster("local[*]").setAppName("WordCount")
//创建Spark上下文对象
val sc = new SparkContext(config)
// println(sc)
//读取文件,将文件内容一行一行读取出来
// sc.textFile("in/word.txt") //只读一个文件
// val lines:RDD[String] = sc.textFile("input") //读文件夹下所有文件 此种方式默认的(当前部署环境)是读取的hdfs的目录
val lines:RDD[String] = sc.textFile("file:///usr/local/spark/input") //读文件夹下所有文件
//将一行一行的数据分解成一个一个的单词
val words:RDD[String] = lines.flatMap(_.split(" "