spark四大特性

最新推荐文章于 2024-08-12 03:02:53 发布

自然语言处理-nlp

最新推荐文章于 2024-08-12 03:02:53 发布

阅读量6.6k

点赞数 1

分类专栏：【大数据】Spark 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/album_gyd/article/details/76691918

版权

【大数据】Spark 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

官方网站：http：//spark.apache.org

Apache Spark™ is a fast and general engine for large-scale dataprocessing.

解释：spark专为大规模数据处理而设计的快速通用的计算引擎（相对于MapReduce）

特点：

1）快速

Map端输出的结果要落地到磁盘，reduce端从磁盘读取，输出结果还要落地到磁盘 map再进行读取（中间要经过shuffle过程）

Spark函数（类似于MapReduce）运行的时候，绝大多数的函数是可以在内存里面去迭代的。只有少部分的函数需要落地到磁盘

2）易用性

开发语言可以有多种，scala、Java、Python，R

Java开发好处：对于大数据的大型项目来说，设计到Hbase，hive，flumn，ssh等需要整合采用Java这个更成熟广泛的语言，更好。

Java开发坏处：代码不优雅，运行效率不如scala，但是发不了jdk1.8后，有了lambda表达式，代码好看了一点。

Scala开发好处：spark本身就是scala语言开发的，运行效率好，而且是函数式编程，代码优雅。

Spark里面有超过80个算子（类似于map reduce）等操作，spark开发起来更灵活，更简单。

3）通用性

Spark没有出现时，需要进行计算就需要安装MapReduce，批处理就需要安装hive，pig,实时分析就需要安装storm，机器学习就需要安装mahout或者mllib，实时分析就需要安装storm，需要进行查询就需要安装Hbase。

（大数据改变了这个世界，spark改变了大数据）

Spark出现后，计算时用sparkcore（里面有很多类似于（MapReduce）算子，有很多sql语句解决不了的问题，就使用类似于MapReduce的工具），如果想要进行sql操作，spark就有sparksql（进行批处理）来代替类似MapReduce的操作，想要实时分析，就有sparkStreaming，因为spark是大多数在内存里面进行迭代，效率高，所以有mahout 适合机器学习，还有图计算，大数据开发会涉及到sparksql（hive，pig），sparkStreaming（storm），spark core（MapReduce）

4）任何平台都可运行

在Yarn，Mesos（是一个类似于yarn的资源管理器），standalone或者cloud（云端）上。

国内：选择yarn 上运行，因为我们之前的大数据平台就是hadoop搭建的

国外：选择Mesos，因为spark和MASOS是同一个团队编写的

Standalone不需要Mesos也不需要yarn，spark自己管理资源，有Master和Worker 相当于ResourceManager和Nodemanager

Access data in HDFS, Cassandra, HBase, Hive, Tachyon, and any Hadoopdata source.

Spark可以计算各种各样的数据源，可以计算hdfs上的 Hbase上的 hive上的数据，kafka和flumn上的数据也可以被spark读取，ES（索引），Tachyon（alluxi（http://www.alluxio.org/）中文学习官网）是分布式的内存文件系统，由内存构成，读取时效率更高。

自然语言处理-nlp

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。