DayOneMore-CSDN博客

原创 latex 枚举编号样式

\begin{enumerate}\item [(1)]\item [(2)]\end{enumerate}

2021-04-11 11:25:53 2188

原创 latex 中手写l的输入方法

\partial 后面的 ℓ\ellℓ 的输入方法\ellℓ\ellℓ

2021-04-11 11:19:27 6212

原创 Mac python2 python3共存

https://www.jianshu.com/p/d19a37e1bbd9python3画图和python2不同，更好看一些

2021-03-24 14:16:47 414

官方文档：https://matplotlib.org/stable/gallery/index.html# coding=UTF-8import matplotlibimport matplotlib.pyplot as pltimport numpy as np# import sys# reload(sys)# sys.setdefaultencoding('utf-8')labels = ['5ms','10ms','50ms','100ms','500ms','1000ms',

2021-03-24 14:15:21 291

原创 ValueError matplotlib display text must have all code points 128 or use Unicode strings

错误问题：ValueError: matplotlib display text must have all code points < 128 or use Unicode strings错误原因：在使用matplotlib进行图表展示时，如果需要在图表上添加中文，可能会报字符类型的值错误。解决办法：重新调用系统，修改默认的字符类型。import sysreload(sys)sys.setdefaultencoding('utf-8')说明：一般在我们写程序的过程中，经常会遇到这种字符

2021-03-23 20:23:14 543

原创 python中有中文报错

在python程序中，只要有中文就会报错，不管是否在注释里。SyntaxError: Non-ASCII character '\xe5' in file paint.py on line 14, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details原因python的默认编码文件是用的ASCII码，python文件中使用了中文等非英语字符。解决办法在Python源文件的最开始一行，加入一句：#

2021-03-23 20:20:53 3347

原创 spark集群搭建

/etc/hosts中去掉127.0.1.1映射个台机器之间互相ssh，并测试安装java,可能会遇到这个问题，看安装jdk，即使配置好环境变量，依旧报错克隆spark，并解压配置spark-env.sh运行pyspark测试安装scipy...

2021-03-18 17:25:18 230

原创 ERROR TaskSchedulerImpl: Lost executor 1 on 1xx.xx.xxx.x: Remote RPC client disassociated. Likely du

ERROR TaskSchedulerImpl: Lost executor 1 on xx.xx.xx.xx: Remote RPC client disassociated. Likely due to containers exceeding thresholds, or network issues. Check driver logs for WARN messages.是SPARK_DRIVER_MEMORY或SPARK_EXECUTOR_MEMORY不足，在spark-env.sh中增大一些

2021-03-16 15:13:31 1734

原创 spark SLF4J: Class path contains multiple SLF4J bindings.

spark 中出现这个问题在spark-env.sh中，之前因为尝试解决别的问题，多加了个export SPARK_DIST_CLASSPATH=$(/home/zhangjiahua/spark/hadoop-2.6.4 classpath)删掉就行

2021-03-15 09:44:06 898

原创 spark中failed to launch: nice -n

问题：failed to launch: nice -n 0 /home/xxx/spark/spark-3.0.2-bin-hadoop2.7/bin/spark-class org.apache.spark.deploy.master.Master --host 1xx.1x.xx.xx --port 7077 --webui-port 8080反复检查spark-env.sh都没有错，最后发现是spark-defalut.conf中spark.network.timeout设置的太小，之前是2

2021-03-14 23:38:34 1619

原创 gaierror: [Errno -2] Name or service not known

配置spark，运行的时候报错/etc/hosts中，127.0.0.1的映射保留，127.0.1.1的要删掉

2021-03-12 12:47:21 1271

原创 Invalid maximum head size: -Xmx8192M

set("spark.executor.memory", "8g")如果设置的太大，会报下面的错误，减小就可以了

2021-03-09 15:16:06 663

原创 Spark性能优化指南

非常好的两篇文章Spark性能优化指南——基础篇Spark性能优化指南——高级篇

2021-03-09 14:08:11 141

原创奇怪问题

奇怪的问题前提：迭代100000的时候步长100问题描述单机单线程运行，约13.5s使用local[2]，local[3]，local[4]，local[5]模式运行，约5.9s运行完程序，但是会提示如下WARNlocal[6]及以后模式下不会出现如上WARN，但是运行速度降低，大概要10s运行完程序，线程数越大好像越慢一些3个worker（包括一台机器既作为master又作为worker），运行更慢，大概要24s2个worker，大概要20s1个worker大概要17s本机既作为w

2021-03-06 22:16:48 343 1

原创 ERROR CoarseGrainedExecutorBackend: RECEIVED SIGNAL TERM

问题描述spark分布式运行的过程中，自己有两个worker，但是运行的时候，只有一台worker正常运行，另一台报了右边的错，如下图ERROR CoarseGrainedExecutorBackend: RECEIVED SIGNAL TERM把正常的机器停掉，只运行有问题的worker（dl21,dl23）,发现能出结果，但是两台机器的stderr仍然是右边的错，所以奇怪的是，结果怎么出来的？网上说是因为资源分配不够，但是我分配了executor 10G资源，反而出现下面这种问题然后有些

2021-03-06 16:54:13 3162 1

原创从本地上传文件到hdfs，并在程序中读区

背景自己在使用spark MLlib的时候，在单机下反而比分布式下更快，所以猜测是从本地读数据比较慢，所以想把数据从本地弄到hdfs上上传数据到hdfs查看hdfs 根目录/下文件，发现有两种hadoop fs -ls /hdfs dfs -ls /创建一个新的文件夹/dataHadoop fs -mkdir /data上传文件到hdfshadoop fs -put ~/project/test.txt /data删除文件hadoop fs -rm /data/xxx...

2021-03-03 22:39:00 421 1

原创 spark-submit后发现程序没有分布式运行

问题描述：spark-submit后发现程序没有分布式运行w3m http://localhost:8080发现要用--master spark://[masterip]:7077命令运行,例如spark-submit --master spark://masternode:7077 yourapp但是仍然不行，出现如下状况8080 UI显示如下：原因分析：master和worker之间通信出了问题，因为用一台机器座位worker和master是可以运行的仔细看，下图这里出了问题

2021-03-03 20:23:04 391

原创 spark中ImportError: No module named numpy原因和解决方法

问题描述spark 集群运行的时候，报错ImportError: No module named numpy但是想来想去记得numpy都安装了，但其实不是的问题分析spark集群运行，需要所有的机器都有numpy,自己使用了一台新的机器dl21，这个机器原本没有自带numpy,需要安装解决方案sudo apt-get updatesudo apt-get install python-numpy python-scipy python-matplotlib ipython ipython-n

2021-03-03 20:06:08 2233 2

原创 Linux配置了环境变量JAVA仍然是openjdk

问题描述不使用openjdk，使用jdk,下载完后，也配置了环境变量反复检查/etc/profile~/.bashrc均没有错误，但是java -version仍旧是openjdk解决方案需要删除/usr/bin下的java文件

2021-03-03 16:13:41 1199 1

原创 Java HotSpot(TM) Server VM warning: You have loaded library /home/xxx/spark/hadoop-2.6.4/lib/native/

问题描述：Java HotSpot™ Server VM warning: You have loaded library /home/xxx/spark/hadoop-2.6.4/lib/native/libhadoop.so which might have disabled stack guard. The VM will try to fix the stack guard now.It’s highly recommended that you fix the library with 'ex

2021-03-03 10:26:33 1192

原创 Hadoop集群搭建教程（详细）

详细的参考这个：https://blog.csdn.net/fanxin_i/article/details/80425461其中初始化hadoop应改为下面这两行命令：bin/hadoop namenode -formathdfs namenode -format在浏览器中输入 http://[master name]:18088 能够访问hadoop管理界面。根据自己的配置，写后面的端口号，这个教程里是18088，有的是8088遇到了问题但是这时候发现，active

2021-03-02 23:31:55 863

原创可以配置环境变量的地方

/etc/prifile~/.bashrc另外有下面博文可以参考https://blog.csdn.net/zhqshx/article/details/39182397?utm_source=blogxgwz7

2021-03-02 14:39:26 122

原创安装jdk，即使配置好环境变量，依旧报错

安装好官网jdk,配置好环境变量/etc/profile,也sorce了，也退出重进系统了，但是依旧提示-bash: /home/xxx/spark/jdk1.8.0_281/bin/jps: No such file or directory查看了文件权限，都是有-x权限的最后搜了有这么一条https://askubuntu.com/questions/634024/bash-usr-bin-java-no-such-file-or-directory运行下面命令，即可sudo apt-g

2021-03-02 14:07:33 453

原创 github配置了SSH keys仍然无法clone项目

问题描述：在一台新的机器，想git clone一个自己的项目，发现即使配置了SSH keys，仍然显示没有权限原因分析：一台新的机器，需要配置用户名和邮箱，再运行如下命令ssh -T git@github.com解决方案：首先，运行git config --list查看用户名和邮箱有没有配置，如果是空的则没有配置配置用户名和邮箱，分别使用下面俩命令git config --global user.name "x x x"git config --global user.email "

2021-03-01 17:31:38 4446 1

原创提交程序到集群模式(cluster mode)下运行

cluster mode提交程序到集群模式下(cluster mode)运行。在集群模式下，驱动程序是从集群中的一个工作进程启动的，客户机进程在完成提交应用程序的职责后立即退出，而不必等待应用程序完成。使用命令spark-submit --master spark://1xxx.xxx.xx.x:7077 test.py在代码中创建 SparkContext 对象时conf = SparkConf().setAppName("appName").setMaster("spark://1xxx.

2021-02-27 20:37:26 532

原创 Ctrl+Z 暂停程序及重启程序

Ctrl+Z - 暂停进程并放入后台jobs - 显示当前暂停的进程bg N 使第N个任务在后台运行fg N 使第N个任务在前台运行bg, fg 不带 N 时表示对最后一个进程操作On Unix-like systems, Control+Z is the most common default keyboard mapping for the key sequence that suspends a process.[2] When entered by a user at their comp

2021-02-27 12:48:27 916

原创 kill -9 杀不掉jps进程

问题描述：jps发现有一些进程，但是用kill -9 pid杀不掉原因分析：发现这个进程是僵尸进程有两种方式查看进程是不是僵尸????‍♂️进程top命令ps pid解决方案：网上搜到如下解决方案：https://www.cnblogs.com/xubiao/p/6497390.htmlhttps://blog.csdn.net/qq_34477362/article/details/86685724如果业务不繁忙，允许停机，可以使用重启机器来解决kill -9 父进程号

2021-02-27 12:32:06 1671

原创对于CoordinateMatrix使用toRowMatrix()转换后，行数变少的问题（行粘连）

问题描述：对于mat = CoordinateMatrix(entries)，mat 使用rowMat = mat.toRowMatrix() 转换后，行数变少。通过进一步查看rowMat发现，出现了几行粘连的情况：程序代码如下： rowNum = 0 colNum = 0 valNum = 0 mtxEntries = [] with open("A.out") as fileA: [rowNum_S, colNum_S, valNum_S]

2021-02-26 20:49:46 332

原创 java.lang.IllegalArgumentException: requirement failed: Found duplicate indices: 766.

问题描述：spark python中使用 CoordinateMatrix的时候出现java.lang.IllegalArgumentException: requirement failed: Found duplicate indices: 766.原因分析：在矩阵的输入文件中，存在重复的值，这是由于原数据hash冲突引起的，哈希冲突存在是正常的。解决方案：去除重复元素使用如下方法https://www.cnblogs.com/yunlongaimeng/p/8728647.html

2021-02-26 13:01:33 577

原创 AttributeError: ‘PipelinedRDD‘ object has no attribute ‘toDF‘

问题描述：spark 运行遇到如下问题AttributeError: 'PipelinedRDD' object has no attribute 'toDF'解决方案：参考了如下https://stackoverflow.com/questions/32788387/pipelinedrdd-object-has-no-attribute-todf-in-pyspark加入如下代码from pyspark.sql import SparkSessionspark = SparkSessi

2021-02-26 09:40:32 1745

原创 spark运行分布式集群

文章目录运行发布python程序集群配置及启动提交应用worker出现问题问题描述解决方法注意运行发布python程序当WARN太多设置log4j.properties文件log4j.rootCategory=WARN, console运行python程序spark-submit sparktest.py可直接启动集群配置及启动将编译好的 Spark 复制到所有机器的一个相同的目录下，比如 /home/yourname/spark设置好从主节点机器到其他机器的 SSH

2021-02-19 17:21:47 260

原创 spark master无法正常启动，worker正常启动

背景试用jps查看是否正常启动问题描述：dl8作为master时，可以正常启动master和worker，而dl23作为master时，无法启动master，但可以正常启动workerstarting org.apache.spark.deploy.master.Master, logging to /home/x x x/spark/spark-2.4.7-bin-hadoop2.6/logs/spark-xxx-org.apache.spark.deploy.master.Master-1-ss

2021-02-17 10:54:12 1827 2

空空如也

空空如也