配置
1、将Hive-site.xml复制到Spark/conf目录下
如果hive-site中配置了查询引擎,需要将其注掉
2、将把 Mysql 的驱动 mysql-connector-java-5.1.27-bin.jar copy 到 Spark/jars/目录下
3、保险起见,可将core-site.xml和hdfs-site.xml 拷贝到Spark/conf/目录下
4、如果hive中表是采用Lzo或snappy等压缩格式,需要配置spark-defaults.conf,详情参考https://www.cnblogs.com/yangxusun9/p/12827957.html#fneQWfJQ,或者直接将lzo包拷贝到jars目录下
花式连接
利用spark-sql 来代替 hive
最普遍的应用就是在脚本中, 用 ''spark-sql --master yarn '' 来代替 " hive",来提高运行速度
开启thriftserver服务,利用beeline连接
开启thriftserver服务
sbin/start-thriftserver.sh\--master yarn \--hiveconf hive.server2.thrift.bind.host=hadoop102 \ ##默认-–hiveconf hive.server2.thrift.port=10000 \ ##默认
使用beeline
bin/beeline
# 然后输入!connect jdbc:hive2://hadoop102:10000
# 然后按照提示输入用户名和密码
利用第三方工具(如IDEA)连接
添加依赖
org.apac