hadoop要点（四）

最新推荐文章于 2024-04-10 22:30:00 发布

「已注销」

最新推荐文章于 2024-04-10 22:30:00 发布

阅读量602

点赞数

分类专栏： Hadoop生态

本文链接：https://blog.csdn.net/careefour/article/details/53943342

版权

本文档列举了Hadoop在使用过程中遇到的各种问题及解决方法，包括YARN服务启动失败、日志查看、资源清理、配置文件修正、Hive与Spark的连接问题、HDFS数据问题以及Presto与ES的异常等，并提供了相应的解决方案。

摘要由CSDN通过智能技术生成

101、经验：kafka的comsumer groupID对于spark direct streaming无效

102、启动hadoop yarn,发现只启动了ResourceManager，没有启动NodeManager

解决方法：yarn-site.xml配置有问题，检查并规范各项配置

103、如何查看hadoop系统日志

解决方法：Hadoop 2.x中YARN系统的服务日志包括ResourceManager日志和各个NodeManager日志，它们的日志位置如下：ResourceManager日志存放位置是Hadoop安装目录下的logs目录下的yarn-*-resourcemanager-*.log，NodeManager日志存放位置是各个NodeManager节点上hadoop安装目录下的logs目录下的yarn-*-nodemanager-*.log

104、经验：小于128M的小文件都会占据一个128M的BLOCK，合并或者删除小文件节省磁盘空间

105、how to remove Non DFS Used

解决方法：1）清除hadoop数据目录中用户缓存文件：cd /data/hadoop/storage/tmp/nm-local-dir/usercache;du -h;rm -rf `find -type f -size +10M`; 2）清理Linux文件系统中的垃圾数据

106、经验：Non DFS Used指的是非HDFS的所有文件

107、linux profile配置文件隔离

解决方法：cd /etc/profile.d;在这里新建相应配置脚本

108、The reference to entity "autoReconnect" must end with the ';' delimiter

解决方法：把&替换成&

109、Service hiveserver not found

解决方法：Try to run bin/hive --service hiveserver2 instead of hive --service hiveserver for this version of apache hive

110、Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create spark client.)'

解决方法：不要预编译的spark，重新编译spark，并保证与hive pom中的版本一致

111、java.lang.NoSuchFieldError: SPARK_RPC_SERVER_ADDRESS at org.apache.hive.spark.client.rpc.RpcConfiguration.<clinit>(RpcConfiguration.java:45)

解决方法：hive spark版本要匹配，同时必须是没有-phive参数编译的spark

112、javax.jdo.JDOFatalInternalException: Error creating transactional connection factory

解决方法：把mysql connector加入hive的lib中

113、org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create spark client FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.spark.