Spark简介
Spark可以独立于Hadoop单独运行
Spark的设计理念
- 交互式和迭代式
- 在集群多点内存中运行的分布式计算
- 容错数据集合
同时Spark还支持使用不同的语言编程(Java,Scala,R,Python)
可以从不同的数据源获取数据(HDFS,Cassandra,HBase)
实现不同的功能Spark Core, Spark SQL, Spark Streaming, Spark MLIB和Graph X
运行模式
- 批处理 – 用于大规模的分布式数据处理
spark -submit xxx
- 流方式 – Spark流用来传送和处理实时数据
- 交互方式 – 常用于处理内存中的大块数据.较低的延迟性
spark-shell
pyspark
数据读写 Spark可以从以下系统访问数据
- Hadoop HDFS以及Hive, HBase等
- Amazon S3
- Cassandra, Mongodb
另外Spark还支持以下文件格式
- Text(包括CSV JSON等)
- SequenceFiles
- AVRO
- Parquet