Spark SQL中可以对各种数据源进行读取和处理:Parquet、Hive、Json、Hbase。相应也有数据的保存和加载的方法。
加载:
首先将数据文件上传到HDFS中:hdfs dfs -put localfile hdfs_file
people.json是spark的examples/src/main/resource自带的文件:
启动spark-shell,记得启动之前要启动hive(hive --service metastore > metastore.log 2>& 1&),hadoop读取按照format
指定格式读取文件
读取:
保存:
save函数把DF保存到文件中或者具体的格式来指明要读取得文件类型。
将DF中选择后得数据保存:
========================================================================================
打包提交运行。