一、Spark上运行Hive的配置
如下的配置文件 都是在Spark目录中配置
1)/usr/local/spark/conf/hive-site.xml
在/usr/local/spark/conf中添加hive-site.xml配置文件,主要是来指明Hive元数据 的位置。具体内容为:
<configuration>
<property>
<name>hive.metastore.uris</name>
<value>thrift://vm000:9083</value>
<description>Thrift URI for the remote metastore. Used by metastore client to connect to remote metastore.</description>
</property>
</configuration>
2)在/usr/loal/spark/lib中添加mysql的jar包。(这一步好像可以不用做)
即向/usr/local/spark/lib中添加mysql-connector-java-5.1.37-bin.jar
3)启动hive元数据服务
即执行 hive --service metastore &
然后就可以启动./spark-shell了,启动后就可以在spark-shell中执行hql了。
4)执行时,先创建HiveContext对象:
val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc) //注意,这里HiveContext前要写 完整的包名,不然会报错。
5)然后,就可以执行hql查询了。如下是几个示例:
a. hiveContext.sql("use hive"); //使用hive这个database
b. hiveContext.sql("show tables")
c. hiveContext.sql("select * from people").collect.foreach(println)
d. hiveContext.sql("select count(*) from text").collect.foreach(println)
二.启动spark-shell时报的两个错误
1)出现“拒绝连接”字样
分析:;应该是ip地址的问题
方法:修改spark-env.sh中master的IP地址。(可能是因为现在的ip变了,和原来配置的不一样了)
即可解决
2)错误1解决后,再次启动spark-shell,又报如下错误:
Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:444)
at org.apache.hadoop.hive.cli.CliDriver.run(CliDriver.java:672)
at org.apache.hadoop.hive.cli.CliDriver.main(CliDriver.java:616)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at org.apache.hadoop.util.RunJar.run(RunJar.java:221)
at org.apache.hadoop.util.RunJar.main(RunJar.java:136)
Caused by: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
原因:因为没有正常启动Hive 的 Metastore Server服务进程。
解决方法:启动Hive 的 Metastore Server服务进程,执行如下命令:# hive --service metastore &
解决