Spark期末复习--容易遗漏的知识点

Spark主要有以下3个特点:

  1. spark提供了高级API,开发者只需专注于应用计算本身即可,不用关注集群。
  2. spark计算速度快,支持交互式计算和复杂算法。
  3. spark是一个通用引擎,可用它来完成各种运算,包括SQL查询、文本处理、机器学习、实时流处理等。

spark与hadoop的区别和联系

(1)解决问题的方式不同。
hadoop是一个分布式数据基础架构,它将巨大的数据集分派到一个集群中,由其中多个节点进行存储,用户不需要专门购买昂贵的服务器硬件,且hadoop还会对这些数据进行排序和跟踪。
spark则是一个专门用来对分布式存储的大数据进行处理的工具,但它并不会进行分布式数据的存储。
(2)两者可合可分
hadoop不仅提供HDFS的分布式数据存储功能,还提供了mapreduce的数据处理功能,因此用户可以不使用spark,而选择使用hadoop自身的mapreduce对数据进行处理。
spark不一定需要依附在haddop系统中,但spark没有提供文件管理系统,所以spark需要和其他分布式文件系统集成,才能运作。

spark提供生态系统图
(1)spark core提供spark最基础和最核心的功能,它的子框架包括spark SQL、Spark Streaming、MLlib和GraphX。
(2)Spark SQL 是一种结构化的数据处理模块,提供一个称为DataFrame的编程抽象,可作为分布式SQL查询引擎。
(3)spark streaming 是spark API的核心存在可达到超高通量的扩展,可处理实时数据流的数据并容错。
(4)GraphX是Spark 上分布式图形处理架构,可用于图表计算。

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

茶冻茶茶

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值