Hadoop/Spark
hadoop/spark学习笔记
蒲公英smile
这个作者很懒,什么都没留下…
展开
-
解决xshell无法连接虚拟机问题,亲测有效
xshell不能连接虚拟机,解决办法转载 2023-03-03 21:51:16 · 2104 阅读 · 0 评论 -
PySpark任务在YARN集群上运行 关联python包numpy pandas scipy 等
使用pyspark的时候代码会依赖numpy pandas scipy 等,这时候需要将相关的环境包一起提交,如何提交环境包文件,参考如下:Spark Application可以直接运行在YARN集群上,这种运行模式,会将资源的管理与协调统一交给YARN集群去处理,这样能够实现构建于YARN集群之上Application的多样性,比如可以运行MapReduc程序,可以运行HBase集群,也可以运行Storm集群,还可以运行使用Python开发机器学习应用程序,等等。我们知道,Spark on YARN又原创 2021-08-07 15:43:17 · 867 阅读 · 0 评论 -
spark Yarn模式运行报错:Connecting to ResourceManager at /0.0.0.0:8032
1、报错信息如下11 20:11:07,922 INFO [main] org.apache.hadoop.ipc.Client: Retrying connect to server: 0.0.0.0/0.0.0.0:8030. Already tried 3 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS)2014-05-11 20:11:09,966 IN原创 2021-08-03 13:12:32 · 3446 阅读 · 0 评论 -
hadoop集群运行报错:Error: Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster
1、配置mapred-site.xml文件vim mapred-site.xml 打开该配置文件<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>ma原创 2021-07-16 17:12:58 · 459 阅读 · 2 评论 -
spark yarn模式
spark yarn模式不需要配置spark集群,直接在hadoop集群上运行spark就可以!原创 2021-07-29 14:41:42 · 77 阅读 · 0 评论 -
Spark在从HDFS上读取文件运行,然后将运行后文件保存到hdfs上流程
1、提交代码首先将Python代码上传到对应目录,然后用 spark-submit 命令提交代码。./bin/spark-submit ./pythonProgram/spark_hello.py hdfs://hadoop102:8020/b.txt./bin/spark-submit ./pythonProgram/spark_hello.py hdfs://hadoop102:8020/b.txtpython代码如下:from pyspark import SparkContext, Sp原创 2021-08-02 13:40:56 · 1057 阅读 · 0 评论 -
pyspark踩坑:Python worker failed to connect back和an integer is required
方法一:降低pyspark版本,博主亲测可用。博主之前安装的pyspark是3.1.1版本,Pycharm运行报Python worker failed to connect back错误,然后改成3.0.1版本,不再报错。from pyspark import SparkContext, SparkConfconf = SparkConf().setAppName("yasaka").setMaster("local")sc = SparkContext(conf=conf)data =原创 2021-08-01 15:47:59 · 1610 阅读 · 1 评论