![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
分布式
DayOneMore
这个作者很懒,什么都没留下…
展开
-
spark集群搭建
/etc/hosts中去掉127.0.1.1映射个台机器之间互相ssh,并测试安装java,可能会遇到这个问题,看安装jdk,即使配置好环境变量,依旧报错克隆spark,并解压配置spark-env.sh运行pyspark测试安装scipy...原创 2021-03-18 17:25:18 · 134 阅读 · 0 评论 -
ERROR TaskSchedulerImpl: Lost executor 1 on 1xx.xx.xxx.x: Remote RPC client disassociated. Likely du
ERROR TaskSchedulerImpl: Lost executor 1 on xx.xx.xx.xx: Remote RPC client disassociated. Likely due to containers exceeding thresholds, or network issues. Check driver logs for WARN messages.是SPARK_DRIVER_MEMORY或SPARK_EXECUTOR_MEMORY不足,在spark-env.sh中增大一些原创 2021-03-16 15:13:31 · 1528 阅读 · 0 评论 -
spark SLF4J: Class path contains multiple SLF4J bindings.
spark 中出现这个问题在spark-env.sh中,之前因为尝试解决别的问题,多加了个export SPARK_DIST_CLASSPATH=$(/home/zhangjiahua/spark/hadoop-2.6.4 classpath)删掉就行原创 2021-03-15 09:44:06 · 720 阅读 · 0 评论 -
spark中failed to launch: nice -n
问题:failed to launch: nice -n 0 /home/xxx/spark/spark-3.0.2-bin-hadoop2.7/bin/spark-class org.apache.spark.deploy.master.Master --host 1xx.1x.xx.xx --port 7077 --webui-port 8080反复检查spark-env.sh都没有错,最后发现是spark-defalut.conf中spark.network.timeout设置的太小,之前是2原创 2021-03-14 23:38:34 · 1407 阅读 · 0 评论 -
gaierror: [Errno -2] Name or service not known
配置spark,运行的时候报错/etc/hosts中,127.0.0.1的映射保留,127.0.1.1的要删掉原创 2021-03-12 12:47:21 · 1083 阅读 · 0 评论 -
Invalid maximum head size: -Xmx8192M
set("spark.executor.memory", "8g")如果设置的太大,会报下面的错误,减小就可以了原创 2021-03-09 15:16:06 · 509 阅读 · 0 评论 -
Spark性能优化指南
非常好的两篇文章Spark性能优化指南——基础篇Spark性能优化指南——高级篇原创 2021-03-09 14:08:11 · 70 阅读 · 0 评论 -
奇怪问题
奇怪的问题前提:迭代100000的时候 步长100问题描述单机单线程运行,约13.5s使用local[2],local[3],local[4],local[5]模式运行,约5.9s运行完程序,但是会提示如下WARNlocal[6]及以后模式下不会出现如上WARN,但是运行速度降低,大概要10s运行完程序,线程数越大好像越慢一些3个worker(包括一台机器既作为master又作为worker),运行更慢,大概要24s2个worker,大概要20s1个worker大概要17s本机既作为w原创 2021-03-06 22:16:48 · 191 阅读 · 1 评论 -
ERROR CoarseGrainedExecutorBackend: RECEIVED SIGNAL TERM
问题描述spark分布式运行的过程中,自己有两个worker,但是运行的时候,只有一台worker正常运行,另一台报了右边的错,如下图ERROR CoarseGrainedExecutorBackend: RECEIVED SIGNAL TERM把正常的机器停掉,只运行有问题的worker(dl21,dl23),发现能出结果,但是两台机器的stderr仍然是右边的错,所以奇怪的是,结果怎么出来的?网上说是因为资源分配不够,但是我分配了executor 10G资源,反而出现下面这种问题然后有些原创 2021-03-06 16:54:13 · 2751 阅读 · 1 评论 -
从本地上传文件到hdfs,并在程序中读区
背景自己在使用spark MLlib的时候,在单机下反而比分布式下更快,所以猜测是从本地读数据比较慢,所以想把数据从本地弄到hdfs上上传数据到hdfs查看hdfs 根目录/下文件,发现有两种hadoop fs -ls /hdfs dfs -ls /创建一个新的文件夹/dataHadoop fs -mkdir /data上传文件到hdfshadoop fs -put ~/project/test.txt /data删除文件hadoop fs -rm /data/xxx...原创 2021-03-03 22:39:00 · 298 阅读 · 1 评论 -
spark-submit后发现程序没有分布式运行
问题描述:spark-submit后发现程序没有分布式运行w3m http://localhost:8080发现要用--master spark://[masterip]:7077命令运行,例如spark-submit --master spark://masternode:7077 yourapp但是仍然不行,出现如下状况8080 UI显示如下:原因分析:master和worker之间通信出了问题,因为用一台机器座位worker和master是可以运行的仔细看,下图这里出了问题原创 2021-03-03 20:23:04 · 277 阅读 · 0 评论 -
spark中ImportError: No module named numpy原因和解决方法
问题描述spark 集群运行的时候,报错ImportError: No module named numpy但是想来想去记得numpy都安装了,但其实不是的问题分析spark集群运行,需要所有的机器都有numpy,自己使用了一台新的机器dl21,这个机器原本没有自带numpy,需要安装解决方案sudo apt-get updatesudo apt-get install python-numpy python-scipy python-matplotlib ipython ipython-n原创 2021-03-03 20:06:08 · 1862 阅读 · 2 评论 -
Java HotSpot(TM) Server VM warning: You have loaded library /home/xxx/spark/hadoop-2.6.4/lib/native/
问题描述:Java HotSpot™ Server VM warning: You have loaded library /home/xxx/spark/hadoop-2.6.4/lib/native/libhadoop.so which might have disabled stack guard. The VM will try to fix the stack guard now.It’s highly recommended that you fix the library with 'ex原创 2021-03-03 10:26:33 · 995 阅读 · 0 评论 -
Hadoop集群搭建教程(详细)
详细的参考这个:https://blog.csdn.net/fanxin_i/article/details/80425461其中初始化hadoop应改为下面这两行命令:bin/hadoop namenode -formathdfs namenode -format在浏览器中输入 http://[master name]:18088 能够访问hadoop管理界面。根据自己的配置,写后面的端口号,这个教程里是18088,有的是8088遇到了问题但是这时候发现,active原创 2021-03-02 23:31:55 · 738 阅读 · 0 评论 -
提交程序到集群模式(cluster mode)下运行
cluster mode提交程序到集群模式下(cluster mode)运行。在集群模式下,驱动程序是从集群中的一个工作进程启动的,客户机进程在完成提交应用程序的职责后立即退出,而不必等待应用程序完成。使用命令spark-submit --master spark://1xxx.xxx.xx.x:7077 test.py在代码中创建 SparkContext 对象时conf = SparkConf().setAppName("appName").setMaster("spark://1xxx.原创 2021-02-27 20:37:26 · 387 阅读 · 0 评论 -
对于CoordinateMatrix使用toRowMatrix()转换后,行数变少的问题(行粘连)
问题描述:对于mat = CoordinateMatrix(entries),mat 使用rowMat = mat.toRowMatrix() 转换后,行数变少。通过进一步查看rowMat发现,出现了几行粘连的情况:程序代码如下: rowNum = 0 colNum = 0 valNum = 0 mtxEntries = [] with open("A.out") as fileA: [rowNum_S, colNum_S, valNum_S]原创 2021-02-26 20:49:46 · 230 阅读 · 0 评论 -
java.lang.IllegalArgumentException: requirement failed: Found duplicate indices: 766.
问题描述:spark python中使用 CoordinateMatrix的时候出现java.lang.IllegalArgumentException: requirement failed: Found duplicate indices: 766.原因分析:在矩阵的输入文件中,存在重复的值,这是由于原数据hash冲突引起的,哈希冲突存在是正常的。解决方案:去除重复元素使用如下方法https://www.cnblogs.com/yunlongaimeng/p/8728647.html原创 2021-02-26 13:01:33 · 452 阅读 · 0 评论 -
AttributeError: ‘PipelinedRDD‘ object has no attribute ‘toDF‘
问题描述:spark 运行遇到如下问题AttributeError: 'PipelinedRDD' object has no attribute 'toDF'解决方案:参考了如下https://stackoverflow.com/questions/32788387/pipelinedrdd-object-has-no-attribute-todf-in-pyspark加入如下代码from pyspark.sql import SparkSessionspark = SparkSessi原创 2021-02-26 09:40:32 · 1568 阅读 · 0 评论 -
spark运行分布式集群
文章目录运行发布python程序集群配置及启动提交应用worker出现问题问题描述解决方法注意运行发布python程序当WARN太多设置log4j.properties文件log4j.rootCategory=WARN, console运行python程序spark-submit sparktest.py可直接启动集群配置及启动将编译好的 Spark 复制到所有机器的一个相同的目录下,比如 /home/yourname/spark设置好从主节点机器到其他机器的 SSH原创 2021-02-19 17:21:47 · 127 阅读 · 0 评论 -
spark master无法正常启动,worker正常启动
背景试用jps查看是否正常启动问题描述:dl8作为master时,可以正常启动master和worker,而dl23作为master时,无法启动master,但可以正常启动workerstarting org.apache.spark.deploy.master.Master, logging to /home/x x x/spark/spark-2.4.7-bin-hadoop2.6/logs/spark-xxx-org.apache.spark.deploy.master.Master-1-ss原创 2021-02-17 10:54:12 · 1590 阅读 · 2 评论