Spark的介绍

最新推荐文章于 2022-07-18 10:48:39 发布

你看起来很好吃

最新推荐文章于 2022-07-18 10:48:39 发布

阅读量199

点赞数

分类专栏： Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010745111/article/details/55053833

版权

Spark 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Spark 是快速的、hadoop数据的通用处理引擎；可以运行在hadoop的YARN集群上或者单机模式；可以处理任何格式的hadoop数据；为了批处理和新的流处理、机器学习而设计。

一、优点：

1、快速：

在内存中，spark可以比hadoop的MR快100多倍；在磁盘上，快10多倍。

2、易用性：

Java, Scala, Python, R.

3、普适性：

including SQL and DataFrames, MLlib for machine learning, GraphX, and Spark Streaming

4、运行环境多：

runs on Hadoop, Mesos, standalone, or in the cloud.

二、内置库：

1、Spark SQL：http://spark.apache.org/docs/latest/sql-programming-guide.html

无缝融入sql查询语句：

context = HiveContext (sc)
results = context. sql (
   "SELECT * FROM people" )
names = results. map ( lambda p: p.name )

统一数据连接：可以用sql关联不同数据源的表！！！

context.jsonFile("s3n://...")
  .registerTempTable("json")
results = context.sql(
  """SELECT *
     FROM people
     JOIN json ...""")

HIVE兼容：可以用UDF。

标准连接：BI工具利用JDBC｜ODBC连接，通过Spark SQL来访问大数据。

2、Spark Streaming:http://spark.apache.org/docs/latest/streaming-programming-guide.html

可以很容易的构建可伸缩性、容错性强的流处理应用。

3、MLlib：http://spark.apache.org/docs/latest/ml-guide.html

可用性：Usable in Java, Scala, Python, and R.

效果好：比mapreduce快100多倍

易部署。

4、GraphX：http://spark.apache.org/docs/latest/graphx-programming-guide.html

图形计算

5、第三方项目：

第三方公共库：spark-packages.org

基础项目：

SparkR - R frontend for Spark、

Zeppelin - an IPython-like notebook for Spark.

Reference：

http://spark.apache.org/

你看起来很好吃

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark的介绍

Spark 是快速的、hadoop数据的通用处理引擎；可以运行在hadoop的YARN集群上或者单机模式；可以处理任何格式的hadoop数据；为了批处理和新的流处理、机器学习而设计。一、优点：1、快速：在内存中，spark可以比hadoop的MR快100多倍；在磁盘上，快10多倍。2、易用性：Java, Scala, Python, R.3、普适性：incl
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。