大数据生态与spark简介

最新推荐文章于 2024-07-22 20:44:10 发布

偷走神奇海螺的章鱼哥

最新推荐文章于 2024-07-22 20:44:10 发布

阅读量119

点赞数

文章标签：大数据 spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AQingSui/article/details/114267082

版权

大数据

大数据，指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化。大数据不仅仅是数据的“大量化”，而是包含“快速化”、“多样化”和“价值化”等多重属性。能力的海量、高增长率和多样化的信息资产。
大数据是由结构化和非结构化数据组成的。10%的机构化数据，存储在数据库中；90%的非结构化数据，它们与人类信息密切相关。

hadoop生态

在这里插入图片描述
其标志性的组件为：Hadoop HDFS、Hadoop MapReduce, HBase、Hive

Spark简介

Spark最初由美国加州大学伯克利分校的AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架。用于构建大型的、低延迟的、数据分析应用程序。

Spark的特点

运行速度快：使用DAG执行引擎以支持循环数据流与内存计算。
容易使用：支持使用Scala、java、Python和R语言进行编程，可以通过Spark Shell进行交互式编程。
通用性：Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件。
运行模式多样：可运行于独立的集群模式中，可运行于Hadoop中，也可运行于Amazon EC2等云环境中，并可以访问HDFS、Cassandra、Hive等多种数据源。

Spark架构图

在这里插入图片描述

Hadoop与Spark的对比

Hadoop存在如下一些缺点：
表达能力有限
磁盘IO开销大
延迟高
任务之间的衔接涉及IO开销
在前一个任务执行完成前，其他任务就无法
Spark在借鉴Hadoop MapReduce优点的同时，很好地解决了MapReduce所面临的问题
相比于Hadoop MapReduce，Spark主要具有如下优点：
Spark的计算模式也属于MapReduce，但不局限于Map和Reduce操作，还提供了多种数据集操作类型，编程模型比Hadoop MapReduce更灵活
Spark提供了内存计算，可将中间结果放到内存中，对于迭代运算效率更高
Spark基于MAG的任务调度执行机制，要优于Hadoop MapReduce的迭代机制

偷走神奇海螺的章鱼哥

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据生态与spark简介

大数据大数据，指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化。大数据不仅仅是数据的“大量化”，而是包含“快速化”、“多样化”和“价值化”等多重属性。能力的海量、高增长率和多样化的信息资产。大数据是由结构化和非结构化数据组成的。10%的机构化数据，存储在数据库中；90%的非结构化数据，它们与人类信息密切相关。hadoop生态...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。