工具idea 语言scala
spark编程入门程序
package com.doit.core
import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
/** spark编程入门程序
* 1 获取spark编程的环境 SparkContext
* 2 需要传入一个配置对象 SparkConf 1) 运行Master 2) 程序名
* 3 读取本地文件
* 4 调用方法(算子) 处理数据 [数据:理解成迭代器]
* 5 输出结果 打印
* 6 释放资源 sc.stop
*/
object C01BaseDemo {
//设置控制台打印日志的日志级别
Logger.getLogger("org").setLevel(Level.ERROR)
def main(args: Array[String]): Unit = {
//1使用spark编程
//首先 spark编程的入口 [环境]
val conf = new SparkConf()
//运行Master 设置程序名字
/**
* 程序运行必须设置运行模式
* conf.setMaster("local") 等同于 conf.set("spark.master", "")
* local 在本地使用一个核处理数据
* local[4] 在本地使用四个核处理数据
*/
conf
.setMaster("local")
.setAppName("date")
//2.获取spark编程环境 SparkContext
val context = new SparkContext(conf)
//3.读取本地文件
//RDD 可以理解成为Iterator(迭代器)
val data: RDD[String] = context.textFile("doit-spark/data/a.txt")
//4.调用方法(算子) 处理数据 [数据:理解成为迭代器]
val res: RDD[String] = data.map(e => e + "-hello")
//5.输出结果 /存储到磁盘/HDFS/mysql/打印
res.foreach(println)
//6.回收环境
context.stop()
}
}
注意:导包apache的包,内容解释都在注释里