python spark2.0_Python+Spark2.0+Hadoop

weixin_39605835

于 2020-12-22 13:39:02 发布

阅读量247

点赞数

文章标签： python spark2.0

本文链接：https://blog.csdn.net/weixin_39605835/article/details/111850612

版权

这篇博客记录了在使用Python、Spark2.0和Hadoop进行机器学习与大数据实战时遇到的问题，包括HDFS启动警告、NameNode格式化、datanode不启动、scala报错以及在Hadoop YARN和Spark Standalone上运行pyspark的步骤。解决方法涉及到配置tmp目录、调整scala和jdk版本、修改文件权限等。

摘要由CSDN通过智能技术生成

Python+Spark2.0+Hadoop 机器学习与大数据实战

遇到的问题记录

1、启动 HDFS 报 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable，开启 debug1che

Failed to load native-hadoopwith error: java.lang.UnsatisfiedLinkError: no hadoop in java.library.path官方文档需要的文件名 libhadoop.so，但是 usr/local/hadoop/lib/native 文件中只有 libhadoop.so.1.0.0，官方编译软件确实有个 libhadoop.so 文件，但是是个 link1ln -s libhadoop.so.1.0.0 libhadoop.so

2、每次使用 start-all.sh 启动 HDFS 和 YARN 的时候无法启动 NameNode，每次都需要使用 hadoop namenode -format 格式化 HDFS 所有数据，才能启动

解决办法：配置 tmp 文件目录

默认在根目录/tmp 文件中，如果 tmp 文件中无重要文件可以清空文件夹1sudo rm -rf /tmp/*

创建 hadoop_tmp 目录1sudo mkdir /home/hduser/hadoop_tmp /*hduser是用户名*/

配置 core-site.xml 文件，新增如下节点1sudo gedit /usr/local/hadoop/etc/hadoop/core-site.xml

最低0.47元/天解锁文章

weixin_39605835

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python spark2.0_Python+Spark2.0+Hadoop

Python+Spark2.0+Hadoop 机器学习与大数据实战遇到的问题记录1、启动 HDFS 报 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable，开启 debug1cheFailed t...
复制链接

扫一扫