现在Hive执行结果会存储到HDFS上,这些文件是一些SQL语句,我们可以通过Spark读取这些文本文件,然后导入到MySQL中,下面是实现了如何通过Spark来读取HDFS,通过在Parition中获取数据库的连接,并把操作MySQL数据库,从而实现Spark读取HDFS,来操作MySQL。
本项目的环境:
JDK:1.7
Hadoop:2.7.1
Spark:1.6.0
Scala:2.10.5
采用SBT方式创建的项目,可以详见:http://blog..net/shenfuli/article/details/51534734
/**
* 读取HDFS上文本的SQL,然后导入MySQL
*
*
* Author: Created by fuli.shen on 2016/5/30.
*/
object RDDtoMySQL {
var inputPath = ""
var ip = ""
var dataBaseName = ""
var userName = ""
var password = ""
def main(args: Array[String]) {
if (args.length != 5) {
println("Usage:")
sys.exit(1)