hadoop、spark使用问题汇总

1、

ERROR ShutdownHookManager: Exception while deleting Spark temp dir: c:/user/自己的用户名/Appdata/Local/Temp/xxxxxxx

这个错误对代码的运行没有影响,具体可行修改方法没有查到(有需要可以自己搜索)。

自己可以进入那个目录看一下,里面会多一些文件(spark-xxxxx-xxxx),可以手动删掉,对集群运行没有影响,如果一直存储这些文件,c盘会变满,再运行集群会有问题。

2、

TypeError: 'JavaPackage' object is not callable

这是因为pyspark库版本问题,最新问题不兼容。方法是降低pyspark库版本。在之前的集群搭建中,我安装的是pyspark库是3.5.0版本,降低为3.2.0版本(我的spark安装包为3.2.0),该问题解决。(最好安装和spark安装包版本一样的版本号)。pip uninstall pyspark,pip install pyspark == 3.2.0。

3、在vscode运行pyspark库的代码,每次结束后出现:

成功: 已终止 PID 13656 (属于 PID 12412 子进程)的进程。

这个不知道是不是正常,还是存在问题,但不会影响程序运行。(有办法的可以交流以下)

4、

root is not a leaf queue

修改yarn-site.xml(/export/server/hadoop/etc/hadoop),重启yarn就可以了。

<name>yarn.resourcemanager.scheduler.class</name>
    <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value>

修改为:

<name>yarn.resourcemanager.scheduler.class</name>
    <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value>

5、

Please install psutil to have better support with spilling

安装psutil库,pip install psutil。

后续有问题会继续补充。

HadoopSpark大数据处理领域中最流行的两个框架。以下是它们的知识点整理汇总Hadoop: 1. Hadoop是一个开源的分布式计算框架,用于存储和处理大规模数据集。 2. Hadoop包括两个核心组件:HDFS(Hadoop分布式文件系统)和MapReduce(分布式计算框架)。 3. HDFS是一个分布式文件系统,用于存储大规模数据集。它将数据分成块并存储在不同的节点上,以实现数据的高可靠性和可扩展性。 4. MapReduce是一种分布式计算框架,用于处理大规模数据集。它将数据分成小块并在不同的节点上并行处理,以实现高效的数据处理。 5. Hadoop还包括其他组件,如YARN(资源管理器)和HBase(分布式NoSQL数据库)。 Spark: 1. Spark是一个快速、通用、可扩展的分布式计算框架,用于处理大规模数据集。 2. Spark的核心组件是Spark Core,它提供了分布式任务调度、内存计算和数据处理功能。 3. Spark还包括其他组件,如Spark SQL(用于结构化数据处理)、Spark Streaming(用于实时数据处理)和MLlib(用于机器学习)。 4. Spark使用RDD(弹性分布式数据集)作为其基本数据结构,它是一个可分区、可并行计算和可恢复的数据集合。 5. Spark支持多种编程语言,如Scala、Java、Python和R。 总结: HadoopSpark都是用于处理大规模数据集的分布式计算框架,它们有不同的核心组件和特点。Hadoop主要用于存储和处理大规模数据集,而Spark则更加注重数据处理的速度和效率。在实际应用中,可以根据具体需求选择合适的框架。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值