为什么学习spark
- 是因为高并发:双十一,春运抢火车票,交通,电信
- 这些数据都存储到数据库中
- 占用磁盘空间很大
- 问题:所有的数据在一台电脑上磁盘存储不下,CPU+内存无法读取大文件
hadoop架构主要处理的是离线数据,并不是实时的。
hive太慢
hbase存储的是非结构化数据(和mysql不一样)
无法处理实时的问题:路况,双十一年会,小米(饥饿营销)
spark擅长于实时计算,Apache Spark是专为大数据处理而设计的快速通用的计算引擎,现在形成一个高速发展应用广泛的生态系统。可用它来完成各种各样的运算,包括SQL查询,文本处理,机器学习等,而在spark出现之前,我们一般需要学习各种各样的引擎来分别处理这些需求
性能特点
- 更快的速度,内存计算下,spark比hadoop快100倍
- 易用性 Spark提供了80多个高级运算符
- 通用性
Spark提供了大量的库,包括Spark Core,Spark SQL,Spark Streaming,MLlib,GraphX。开发者可以在同一个应用程序无缝组合使用这些库。 - 支持多种资源管理器
Spark支持Hadoop YARN,Apache Mesos,及其自带的独立集群管理器。