spark
qq_16608563
这个作者很懒,什么都没留下…
展开
-
Spark大数据处理读书笔记一:Spark简介
1.1 Spark是什么Spark是基于内存计算的大数据并行计算框架,是一个用来实现快速而通用的集群计算平台。Spark 之于 Hadoop:Spark是一个计算框架,而Hadoop中包含计算框架MapReduce和分布式文件系统HDFS,Hadoop更广泛的说还包含其生态系统上的其他系统,如Hbase、Hive等。Spark是MapReduce的替代方案,而且兼容HDFS、Hive等分...原创 2019-01-14 16:25:29 · 637 阅读 · 0 评论 -
Spark大数据处理笔记二:Spark 计算模型
1 Spark程序模型1)SparkContext中的textFile函数从HDFS读取日志文件,输出变量fileval file=sc.textFile(“hdfs://xxx”)2)RDD中的filter函数过滤带“ERROR"的行,输出errors(errors也是一个RDD)val errors = file.filter(line => line.contains(“ERR...原创 2019-08-02 17:16:57 · 420 阅读 · 0 评论