前言:hive利用mr操作实在是太慢了,等的都烦了 so 利用spark来作为计算引擎
1 在终端环境下 cp hive-site.xml hdfs-site.xml core-site.xml $SPARK_HOME/conf
cp mysql-connector.jar $SPARK_HOME/jars
cp mysql-connector.jar $HIVE_HOME/lib/
2 ide中 val spark=sparkSession.build.enableHiveSupport().getOrCreate()
然后再将 hive-site.xml hdfs-site.xml core-site.xml 放到resource 目录下即可
pom中添加mysql驱动
客户端 dbeaver 用终端 不显示表名 字段名子类的很不爽
用dbeaver 客户端可以链接好多数据库
选择使用sparkhive 也可以直接使用hive,但是太慢我用它干什么(需要开启 hive --service hiveserver2)
使用sparksqlhive需要提前开启 /opt/spark-2.4.0/sbin/start-thriftserver.sh
sparkhive填写信息 databases 不用填写否则会报错