spark简单自我介绍

最新推荐文章于 2023-05-24 16:34:55 发布

fjr_huoniao

最新推荐文章于 2023-05-24 16:34:55 发布

阅读量785

点赞数

分类专栏： spark 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kimyoungvon/article/details/50578249

版权

spark 专栏收录该内容

29 篇文章 1 订阅

订阅专栏

Apache Spark 是大规模数据处理领域一个快速的常见的引擎，以下是Spark的一些特点：

速度：
在内存上运行程序相当于hadoop mapreduce处理的100倍，在磁盘上运行速度是hadoop的10倍

Spark提供一个高级的DAG处理引擎，可以支持循环数据流和内存计算。

容易使用：

使用java,scala,python,r语言可以很快的开发应用

Spark 提供了超过80总高级操作，使得它可以很容易的建立起平行的应用，而且你通过scala，python,R 脚本可以交互的使用它，如下所示，使用很少的数据即可实现单词计数的功能：

普遍性：
结合sql，流，和复杂的分析

Spark提供了一堆类库，包含sql和DataFrames,机器学习MLib,Graphx，和Spark Stream.你可以无缝的在同样的应用中结合这些库

到处运行：
Spark可以运行在Hadoop,Mesos,单机，或者是在云上。他可以进入不同的数据源，包括HDFS,Cassandra,和S3.

你可以在Hadoop Yarn,EC2,通过单机集群模式运行Spark,或者是Apache Mesos.进入HDFS,Cassandra,HBase,Hive,Tachyon，和任何的Hadoop数据源

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark简单自我介绍

Apache Spark 是大规模数据处理领域一个快速的常见的引擎，以下是Spark的一些特点：速度：在内存上运行程序相当于hadoop mapreduce处理的100倍，在磁盘上运行速度是hadoop的10倍Spark提供一个高级的DAG处理引擎，可以支持循环数据流和内存计算。容易使用：使用java,scala,python,r语言可以
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。