本篇记录搭建spark离线数仓遇到的错误.
报错内容如下:
1.org.apache.hadoop.hive.ql.parse.SemanticException:Failed to get a spark session: org.apache.hadoop.hive.ql.metadata.HiveException: Failed to create Spark client for Spark session 01271ac4-3717-4f60-bf27-d2c5899c7ba0
排查思路:首先不是hive与spark版本不兼容问题。也不是capacity-scheduler.xml参数设置资源不够问题。(开始直接百度搜此错误的相关帖子,根据调整没有成功。其实应该先看hive运行日志,查看报错日志,找对应的解决方案。)
可能存在问题的地方:
1.版本兼容问题解决:网络很多教程不赘述
2.针对capacity-scheduler.xml参数设置资源不够问题:调整如下value值,按需调整
[hadoop@hadoopsc01 hadoop]$ vim capacity-scheduler.xml
<property>
<name>yarn.scheduler.capacity.maximum-am-resource-percent</name>
<value>0.5</value>
</property>
3.通过查看hive日志我遇到的错误
Causedby:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission denied:user=root,access=WRITE, inode="/user":hadoop:supergroup:drwxr-xr-x
解决方案:在hadoop安装包conf目录下,hdfs-site.xml中加入:
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>