spark快速大数据分析

spark是一个通用计算框架。

spark是一个大一统的软件栈。

spark是大数据处理引擎。

—————————

前言

spark主要有三个优点:

  1. spark好用,高级API剥离了对集群本身的关注,可以专注于计算本身。
  2. spark很快,支持交互式使用和复杂算法。
  3. spark是通用引擎,可以用于各种运算:sql查询、文本处理、机器学习(MLib机器学习库)等。

—————————

spark数据分析导论

spark是一个实现快速而通用的集群计算的平台。

spark的一个主要特点之一就是速度快,因为在内存中进行计算;不过即使是必须在磁盘上的复杂计算,spark依然比mapreduce更高效。

spark适用于各类原先需要多种不同的分布式平台的场景:批处理、迭代算法、交互式查询、流处理。

spark的核心是一个对很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎。

——————

spark组件:

  • spark core基本功能
  • spark sql结构化数据
  • spark streaming实时计算:对实时数据进行流式计算
  • 数据流:网页服务器日志、用户提交的状态更新组成的消息队列等等
  • MLib机器学习:分类、回归、聚类、协同过滤等等
  • GraphX图计算
  • 集群管理器(cluster manager):Hadoop YARN、Apache Mesos、独立调度器

——————

spark的用户和用途

数据科学任务:数据分析

数据处理应用:软件开发

——————

spark的存储层次:

spark不仅可以将任何Hadoop分布式文件系统(HDFS)上的文件读取为分布式数据集,也可以支持其他支持Hadoop接口的系统,如本地文件、Hive、HBase等。即,Hadoop并非spark的必要条件,spark支持任何实现了Hadoop接口的存储结构,包括文本文件等。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值