Spark 入门篇之spark&spark sql

最新推荐文章于 2024-08-21 09:09:24 发布

正行天下

最新推荐文章于 2024-08-21 09:09:24 发布

阅读量4.1k

点赞数 1

分类专栏：大数据 spark 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mozhizun/article/details/50682537

版权

Spark 入门篇

1 概述

Spark是一个通用的快速的大数据处理引擎，是类似于hadoop的map reduce大数据并行处理引擎。它的数据源可以是hdfs、cassandra、hbase等，除常规编程模式外，它还是支持sql使用方式。Spark支持streaming流式计算（秒级延迟）、机器学习库MLib、图计算GraphX、Bagel（Google的pregel图计算框架的实现）、SparkR等多种库，以用于各种复杂的数据处理的场景。

基于spark的编程框架，编写简洁的数据处理脚本，通过spark shell等方式将任务提交到spark平台，spark即可完成大数据任务拆分以及处理，用户可以通过管理的页面来查看任务的处理状态。

Spark基于scala编写，目前spark框架API接口支持scala、java、python、R等语言。

2 Spark优点

Spark 于2012年推出，相对hadoop的map reduce框架，具备较多优点。

优点具体如下：

1) 计算速度快，官方宣称：相对于hadoop，存储基于内存时，快100倍以上，数据存储基于磁盘时快10倍以上。

2) 编程简单

做迭代计算时，不需要像hadoop反复的写多个map reduce，更多和单机的过程式编程类似，代码简单很多。

提供了map（映射处理）、filter、count、reduce、join、group by等80种以上的计算算子，直接使用即可。

简单的已有算子支持的多轮迭代计算任务

最低0.47元/天解锁文章

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。