2021-03-04

最新推荐文章于 2023-11-27 20:13:32 发布

qq_52117497

最新推荐文章于 2023-11-27 20:13:32 发布

阅读量150

点赞数

分类专栏：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_52117497/article/details/114365409

版权

笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

大数据特征：

1）大量化（Volume）：存储量大，增量大 TB->PB

2）多样化（Variety）：

来源多:搜索引擎，社交网络，通话记录，传感器

格式多:(非）结构化数据，文本、日志、视频、图片、地理位置等

3）快速化（Velocity）：海量数据的处理需求不再局限在离线计算当中

4）价值密度低（Value）：但是这种价值需要在海量数据之上，通过数据分析与机器学习更快速的挖掘出来

大数据带来的革命性变革：

1）成本降低
2）软件容错，硬件故障视为常态
3）简化分布式并行计算

Spark:

Spark是UC Berkeley AMPLab开发的是一种计算框架，分布式资源工作交由集群管理软件（Mesos、YARN）。

###Spark的特点

先进架构

Spark采用Scala语言编写，底层采用了actor model的akka作为通讯框架，代码十分简洁高效。

基于DAG图的执行引擎，减少多次计算之间中间结果写到Hdfs的开销。

建立在统一抽象的RDD（分布式内存抽象）之上,使得它可以以基本一致的方式应对不同的大数据处理场景。

高效

提供Cache机制来支持需要反复迭代的计算或者多次数据共享，减少数据读取的IO开销。

与Hadoop的MapReduce相比，Spark基于内存的运算比MR要快100倍；而基于硬盘的运算也要快10倍！

易用

Spark提供广泛的数据集操作类型（20+种），不像Hadoop只提供了Map和Reduce两种操作。

Spark支持Java，Python和Scala API，支持交互式的Python和Scala的shell。

提供整体解决方案

以其RDD模型的强大表现能力，逐渐形成了一套自己的生态圈，提供了full-stack的解决方案。

主要包括Spark内存中批处理，Spark SQL交互式查询，Spark Streaming流式计算， GraphX和MLlib提供的常用图计算和机器学习算法。

与Hadoop无缝连接

Spark可以使用YARN作为它的集群管理器

读取HDFS,HBase等一切Hadoop的数据

Spark整体架构

Spark提供了多种高级工具，如： Shark SQL应用于即席查询（Ad-hoc query）、Spark Streaming应用于流式计算、 MLlib应用于机器学习、GraphX应用于图处理。Spark还可以基于自带的standalone集群管理器独立运行，也可以部署在Apache Mesos 和 Hadoop YARN 等集群管理器上运行。Spark可以访问存储在HDFS、 Hbase、Cassandra、Amazon S3、本地文件系统等等上的数据，Spark支持文本文件，序列文件，以及任何Hadoop的InputFormat。

Spark核心概念

Spark任务提供多层分解的概念，Spark组件将用户的应用程序分解为内部执行任务并提供执行容器，资源管理为spark组件提供资源管理和调度。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
2021-03-04

大数据特征：1）大量化（Volume）：存储量大，增量大 TB->PB2）多样化（Variety）：来源多:搜索引擎，社交网络，通话记录，传感器格式多:(非）结构化数据，文本、日志、视频、图片、地理位置等3）快速化（Velocity）：海量数据的处理需求不再局限在离线计算当中4）价值密度低（Value）：但是这种价值需要在海量数据之上，通过数据分析与机器学习更快速的挖掘出来大数据带来的革命性变革：1）成本降低2）软件容错，硬件故障视为常态3）简化分布式并行计算Spark:Spa
复制链接

扫一扫

专栏目录

qq_52117497 CSDN认证博客专家 CSDN认证企业博客

码龄4年

6: 原创

114万+: 周排名

133万+: 总排名

1426: 访问

: 等级

62: 积分

1: 粉丝

0: 获赞

2: 评论

0: 收藏

私信

关注

热门文章

分类专栏

笔记 6篇

最新评论

2021-03-04
不吃西红柿丶: 很不错分享～进步的路上一起努力！期待您的关注哈。
Python-2
不正经的kimol君: 大神解释得很详细，点赞

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。