产生背景
概述
目标
操作parquet文件数据
操作hive数据
操作mysql数据
统一
产生背景
每一个spark都是以加载数据开始,经过一系列处理,最后存储到其他地方;
不同格式,不同压缩格式,不同存储接口,用户肯定希望从不同数据源收集数据
方便、快速从不同数据源()经过混合处理(json直接和parqent jion)再将结果以特定格式写回到指定系统上去
sparksql 1.2====》外部数据源api
问题:
1.加载、保存数据并不简单,比如从关系数据库sqoop加载到hdfs然后..
2.解析原生数据(text/json/parquet)
3.转换数据格式
数据集存储在不同的存储系统、格式上面
api概述:
一种扩展方式,将外部数据源整合到sparl sql中
读写各种格式(指定格式和路径local,分布式)
目标:
开发人员:是否需要把代码合并到spark源码中?比如访问微博(按照dataframe api实现)
对于使用人员:非常容易加载保存
支持:build-in json parquet jdbc 其他数据源:packages:外部的,非spark内置的,一个网站
操作 parqeut文件数据