Spark第一次课

最新推荐文章于 2024-10-10 18:14:40 发布

大数据19-2，37，田天宇

最新推荐文章于 2024-10-10 18:14:40 发布

阅读量129

点赞数

分类专栏：笔记文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_52106898/article/details/114156816

版权

笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Spark

Spark是热门的大数据处理技术
Spark支持采用Scala、Java、Python和R语言进行编程，本课采用Python语言编写Spark应用程序

Spark简介

Spark是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序

Spark特点

运行速度快：使用DAG执行引擎以支持循环数据与内存计算
容易使用：支持使用Scala、Java、Python和R语言进行编程，可以通过Spark Shell进行交互式编程
通用性强：Spark提供了完整而强大的技术线，包括SQL查询、流式计算、机器学习和图算法组件
运行模式多样：可运行于独立的集群模式中，可运行于Hadoop中，也可运行于Amazon EC2等云环境中，并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源

组件：

在这里插入图片描述

Hadoop与Spark的对比

Hadoop缺点：

表达能力有限
磁盘IO开销大
延迟高
任务之间的衔接涉及IO开销
在前一个任务执行完成前，其他任务无法开始，难以胜任复杂多阶段的计算任务

Spark优点：

Spark的计算模式也属于MapReduce，但不局限于Map和Reduce操作，还提供了多种数据集操作类型，编程模型比Hadoop MapReduce更灵活
Spark提供了内存计算，可将中间结果放到内存中，对于迭代计算效率更高
Spark基于DAG的任务调度执行机制，要优于Hadoop MapReduce的迭代执行机制

Spark只有计算没有存储
性能对比：Flink>Spark>Hadoop(MR)

大数据概念

大数据不仅仅是数据的“大量化”，而是包含“快速化”，“多样化”，和“价值化”等等多重属性

大数据是由结构化数据和非结构化数据组成的

10%的结构化数据存储在数据库中
90%的非结构化数据与人类信息密切相关

在思维方面，大数据颠覆了传统的思维方式

全样而非抽样
效率而非精确
相关而非因果

大数据两大关键技术

分布式存储
分布式处理

大数据19-2，37，田天宇

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。