Spark
文章平均质量分 83
聆听的幻树
不积跬步,无以至千里!!!
展开
-
Spark简介
Spark简介1. Spark概述1. 什么是Spark?Spark作为Apache顶级的开源项目,是一个快速、通用的大规模数据处理引擎,和Hadoop的MapReduce计算框架类似,但是相对于MapReduce,Spark凭借其可伸缩、基于内存计算等特点,以及可以直接读写Hadoop上任何格式数据的优势,进行批处理时更加高效,并有更低的延迟。相对于“one stack to rule原创 2016-03-29 23:01:10 · 15354 阅读 · 0 评论 -
Spark 数据ETL
Spark 数据ETL 说明1、本文翻译自《Machine Learning with Spark》书中第三章第3,4节内容。2、本文一些内容基于http://blog.csdn.net/u011204847/article/details/51224383。3、大家如果有看不懂的地方可以参考原书(网上可以搜到)。 数据处理以及转化1、翻译 2016-04-26 01:12:54 · 15803 阅读 · 0 评论 -
PySpark处理数据并图表分析
PySpark处理数据并图表分析 PySpark简介官方对PySpark的释义为:“PySpark is the Python API for Spark”。 也就是说pyspark为Spark提供的Python编程接口。Spark使用py4j来实现python与java的互操作,从而实现使用python编写Spark程序。Spark也同样提供了pyspark原创 2016-04-23 01:57:58 · 25324 阅读 · 0 评论