1.Spark程序示例
数据处理流水线:
val file = sc.textFile("hdfs://xxx") //1)输入与构造RDD
val errors = file.filter(line=>line.contains("EORROR")) //2)转换Transformation
errors.count() //3)输出Action
数据结构RDD + 算法(两类RDD函数支撑)
2.弹性分布式数据集RDD
将数据
1.Spark程序示例
数据处理流水线:
val file = sc.textFile("hdfs://xxx") //1)输入与构造RDD
val errors = file.filter(line=>line.contains("EORROR")) //2)转换Transformation
errors.count() //3)输出Action
数据结构RDD + 算法(两类RDD函数支撑)
2.弹性分布式数据集RDD
将数据