Spark是什么？

最新推荐文章于 2023-05-05 10:56:49 发布

京河小蚁

最新推荐文章于 2023-05-05 10:56:49 发布

阅读量315

点赞数

分类专栏： spark 文章标签：什么是spark spark 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010772882/article/details/103813099

版权

spark 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

目录

什么是Spark？

Spark数据处理速度秒杀MapReduce

什么是Spark？

Spark官网地址：http://spark.apache.org/

Apache Spark™是一个用于大规模数据处理的统一分析引擎。

速度

Apache Spark使用最先进的DAG调度器、查询优化器和物理执行引擎，实现了批处理和流式数据的高性能。

Spark数据处理速度秒杀MapReduce

Spark因为其处理数据的方式不一样，会比MapReduce快上很多。MapReduce是分步对数据进行处理的: ”从集群中读取数据，进行一次处理，将结果写到集群，从集群中读取更新后的数据，进行下一次的处理，将结果写到集群，等等…“ Booz Allen Hamilton的数据科学家Kirk Borne如此解析。

反观Spark，它会在内存中以接近“实时”的时间完成所有的数据分析：“从集群中读取数据，完成所有必须的分析处理，将结果写回集群，完成，” Born说道。Spark的批处理速度比MapReduce快近10倍，内存中的数据分析速度则快近100倍。

如果需要处理的数据和结果需求大部分情况下是静态的，且你也有耐心等待批处理的完成的话，MapReduce的处理方式也是完全可以接受的。

但如果你需要对流数据进行分析，比如那些来自于工厂的传感器收集回来的数据，又或者说你的应用是需要多重数据处理的，那么你也许更应该使用Spark进行处理。

大部分机器学习算法都是需要多重数据处理的。此外，通常会用到Spark的应用场景有以下方面：实时的市场活动，在线产品推荐，网络安全分析，机器日记监控等

易用性

用Java、Scala、Python、R和SQL快速编写应用程序。

Spark提供了80多个高级算子，可以轻松构建并行应用程序。您可以从Scala、Python、R和sqlshell交互使用它。

通用性

组合SQL、流和复杂分析。

Spark为一堆库提供了动力，包括SQL和DataFrames、用于机器学习的MLlib、GraphX和Spark Streaming。您可以在同一个应用程序中无缝地组合这些库。

运行环境

Spark运行在Hadoop、Apache Mesos、Kubernetes、standalone或cloud。它可以访问不同的数据源。

您可以在EC2、Hadoop YARN、Mesos或Kubernetes上使用Spark的Standalone集群模式运行Spark。访问HDFS、ALUXIO、Apache CasdRRA、Apache HBASE、Apache Hive和其他数百个数据源的数据。

版本

http://spark.apache.org/downloads.html，Spark3.0目前还是在试验阶段，还没有投入生产使用，

期待。。。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

京河小蚁 CSDN认证博客专家 CSDN认证企业博客

码龄11年

157: 原创

2万+: 周排名

1万+: 总排名

19万+: 访问

: 等级

2338: 积分

2787: 粉丝

83: 获赞

31: 评论

326: 收藏

私信

关注

热门文章

分类专栏

starrocks 4篇
trino 8篇
elasticsearch 1篇
设计工具 1篇
flink 86篇
git 4篇
docker 9篇
面试题
设计模式 9篇
hbase 1篇
netty 2篇
spark 3篇
需求 2篇
BI工具-superset 4篇
spring 1篇
linux 10篇
java 7篇
scala 2篇
数据结构 4篇
hive 2篇
wordpress 1篇
hadoop 2篇

最新评论

Flink部署——Metric Reporters
京河小蚁: 问题还在吗
（四）Flink初体验-1
京河小蚁: 是的，现在不人机翻了，改用ai助理了
Flink1.15 DataSream 连接器 —— FileSystem
京河小蚁: AI助理你值得拥有
Flink1.15 DataSream 连接器 —— FileSystem
京河小蚁: Flink FileSource 是在 Flink 1.9 版本中引入的[^11^]。引入 FileSource 需要添加的依赖包是 `flink-connector-files`。例如，根据搜索结果[^1^][^3^]，如果要使用 FileSource 读取文本文件，可以在 Maven 项目的 `pom.xml` 文件中添加以下依赖： ```xml <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-files</artifactId> <version>1.18.0</version> </dependency> ``` 同时，还需要添加 Flink 的基础依赖，如 `flink-java`、`flink-streaming-scala_2.12` 和 `flink-clients`，同样以版本 1.18.0 为例： ```xml <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-java</artifactId> <version>1.18.0</version> </dependency> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-streaming-scala_2.12</artifactId> <version>1.18.0</version> </dependency> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-clients</artifactId> <version>1.18.0</version> </dependency> ``` 请注意，版本号可能会随着 Flink 的更新而变化，所以应该根据项目所使用的 Flink 版本来选择合适的依赖版本。
Flink1.15 DataSream 连接器 —— FileSystem
vincentmliu: 就想知道FileSource这个类究竟是怎么引入的，为啥maven包含streaming的dependency，但是这个类却没看到呢？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

京河小蚁 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。