1.spark计算
引擎:
1.快速 DAG(有向无环图) Memory
2.通用 spark sparkSQL、SparkStreaming等相当于在spark平台上的 jar包 需要时直接以Jar包的方式导入
2运行模式.
Hadoop、Mesos、standlone。
可以处理任意类型的hadoop数据源 如hbase、hive等
3.MapReduce与Spark相比,有哪些异同点
1.基本原理上
a。MapReduce:基于磁盘的大数据批量处理系统
b。Spark:基于RDD(弹性分布式数据集)数据处理、显示的将RDD数据存储到磁盘和内存中
2.模型上:
a.MapReduce:可以处理超大规模数据,适合日志分析挖掘等较少的迭代的长任务
需求。很好的结合了数据的分布式的存储和分布式的计算。
b.Spark:数据的挖掘、机器学习等多轮迭代式的计算任务
容错性:
a。数据的容错性
b。节点的容错性
Spark Linage
具体内容
在spark中,一个应用程序中包含多个job任务,在mapreduce中一个job就是一个应用
sc.textFile(“hdfs://hadoop:8020/user/sp