Spark支持Hadoop MapReduce使用的InputFormat和OutputFormat接口访问数据,HDFS/HBase/S3/Cassandra等大部分文件格式和存储系统都支持这种接口
三种数据源
文件格式和文件系统
> 本地文件系统和分布式文件系统:NFS/HDFS/S3
> 文件格式:文本文件/JSON/SequenceFile/protocol buffer
Spark SQL的结构化数据源
> 使用API使用JSON和Hive在内的结构化数据源
数据库和键值存储
> 使用自带的库或者第三方库连接Cassandra/HBase/Elast