构造以spark为核心的数据仓库,
0.说明
在大数据领域,hive作为老牌的数据仓库比较流行,spark可以考虑兼容hive。但是如果不想用hive做数据仓库也无妨,大不了我们用spark建立最新的数据仓库。
sparkSQL的发展历程表明了,spark本身就可以做数据仓库,而不需要hive。sparkSQL作为数据仓库其元数据放到了Derby中,一般生产环境不会用Derby,而是使用
MySQL或者postgreSQL.本文就是要告诉读者,如何将sparkSQL的元数据存放到mysql.
1.集群规划情况
mysql chinac244<-->chinac242,这两节点做了主主备份。
spark master chinac88<-->chinac82,这两节点做了HA
spark slave chinac88,chinac82,chinac27
2.配置文件(chinac27上修改,然后分发到集群)
解压后将$HIVE_HOME/conf/hive-site.xml 复制到$SPARK_HOME/conf/hive-site.xml
编辑此文件
vim $SPARK_HOME/conf/hive-site.xml