spark
Mojoooo
思考,学习,不循规蹈矩的程序猿
展开
-
Spark:Spark入门
概述什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需转载 2015-10-20 13:28:20 · 709 阅读 · 0 评论 -
Spark: Spark和Hadoop的区别--关于资源使用
Apache Spark的高性能一定程度上取决于它采用的异步并发模型(这里指server/driver端采用的模型),这与Hadoop 2.0(包括YARN和MapReduce)是一致的。Hadoop 2.0自己实现了类似Actor的异步并发模型,实现方式是epoll+状态机,而Apache Spark则直接采用了开源软件Akka,该软件实现了Actor模型,性能非常高。尽管二者在server转载 2015-10-25 14:48:14 · 1307 阅读 · 0 评论 -
Spark Streaming:初步了解
问题导读:1.什么是Spark Streaming?2.Spark Streaming可以接受那些数据源?3.Dstream,我们可以进行哪两种操作?参考:Spark:一个高效的分布式计算系统在看spark Streaming,我们需要首先知道什么是Spark streaming?Spark streaming: 构建在Spark上处理Stream数据的框架,基转载 2015-10-25 21:12:59 · 973 阅读 · 0 评论