自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(48)
  • 收藏
  • 关注

原创 latex 枚举编号样式

\begin{enumerate}\item [(1)]\item [(2)]\end{enumerate}

2021-04-11 11:25:53 1994

原创 latex 中手写l的输入方法

\partial 后面的 ℓ\ellℓ 的输入方法\ellℓ\ellℓ

2021-04-11 11:19:27 4989

原创 Mac python2 python3共存

https://www.jianshu.com/p/d19a37e1bbd9python3画图和python2不同,更好看一些

2021-03-24 14:16:47 322

原创 python 常用画图总结

官方文档:https://matplotlib.org/stable/gallery/index.html# coding=UTF-8import matplotlibimport matplotlib.pyplot as pltimport numpy as np# import sys# reload(sys)# sys.setdefaultencoding('utf-8')labels = ['5ms','10ms','50ms','100ms','500ms','1000ms',

2021-03-24 14:15:21 197

原创 ValueError matplotlib display text must have all code points 128 or use Unicode strings

错误问题:ValueError: matplotlib display text must have all code points < 128 or use Unicode strings错误原因:在使用matplotlib进行图表展示时,如果需要在图表上添加中文,可能会报字符类型的值错误。解决办法:重新调用系统,修改默认的字符类型。import sysreload(sys)sys.setdefaultencoding('utf-8')说明:一般在我们写程序的过程中,经常会遇到这种字符

2021-03-23 20:23:14 398

原创 python中有中文报错

在python程序中,只要有中文就会报错,不管是否在注释里。SyntaxError: Non-ASCII character '\xe5' in file paint.py on line 14, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details原因python的默认编码文件是用的ASCII码,python文件中使用了中文等非英语字符。解决办法在Python源文件的最开始一行,加入一句:#

2021-03-23 20:20:53 3060

原创 spark集群搭建

/etc/hosts中去掉127.0.1.1映射个台机器之间互相ssh,并测试安装java,可能会遇到这个问题,看安装jdk,即使配置好环境变量,依旧报错克隆spark,并解压配置spark-env.sh运行pyspark测试安装scipy...

2021-03-18 17:25:18 145

原创 ERROR TaskSchedulerImpl: Lost executor 1 on 1xx.xx.xxx.x: Remote RPC client disassociated. Likely du

ERROR TaskSchedulerImpl: Lost executor 1 on xx.xx.xx.xx: Remote RPC client disassociated. Likely due to containers exceeding thresholds, or network issues. Check driver logs for WARN messages.是SPARK_DRIVER_MEMORY或SPARK_EXECUTOR_MEMORY不足,在spark-env.sh中增大一些

2021-03-16 15:13:31 1560

原创 spark SLF4J: Class path contains multiple SLF4J bindings.

spark 中出现这个问题在spark-env.sh中,之前因为尝试解决别的问题,多加了个export SPARK_DIST_CLASSPATH=$(/home/zhangjiahua/spark/hadoop-2.6.4 classpath)删掉就行

2021-03-15 09:44:06 742

原创 spark中failed to launch: nice -n

问题:failed to launch: nice -n 0 /home/xxx/spark/spark-3.0.2-bin-hadoop2.7/bin/spark-class org.apache.spark.deploy.master.Master --host 1xx.1x.xx.xx --port 7077 --webui-port 8080反复检查spark-env.sh都没有错,最后发现是spark-defalut.conf中spark.network.timeout设置的太小,之前是2

2021-03-14 23:38:34 1443

原创 gaierror: [Errno -2] Name or service not known

配置spark,运行的时候报错/etc/hosts中,127.0.0.1的映射保留,127.0.1.1的要删掉

2021-03-12 12:47:21 1121

原创 Invalid maximum head size: -Xmx8192M

set("spark.executor.memory", "8g")如果设置的太大,会报下面的错误,减小就可以了

2021-03-09 15:16:06 526

原创 Spark性能优化指南

非常好的两篇文章Spark性能优化指南——基础篇Spark性能优化指南——高级篇

2021-03-09 14:08:11 78

原创 奇怪问题

奇怪的问题前提:迭代100000的时候 步长100问题描述单机单线程运行,约13.5s使用local[2],local[3],local[4],local[5]模式运行,约5.9s运行完程序,但是会提示如下WARNlocal[6]及以后模式下不会出现如上WARN,但是运行速度降低,大概要10s运行完程序,线程数越大好像越慢一些3个worker(包括一台机器既作为master又作为worker),运行更慢,大概要24s2个worker,大概要20s1个worker大概要17s本机既作为w

2021-03-06 22:16:48 218 1

原创 ERROR CoarseGrainedExecutorBackend: RECEIVED SIGNAL TERM

问题描述spark分布式运行的过程中,自己有两个worker,但是运行的时候,只有一台worker正常运行,另一台报了右边的错,如下图ERROR CoarseGrainedExecutorBackend: RECEIVED SIGNAL TERM把正常的机器停掉,只运行有问题的worker(dl21,dl23),发现能出结果,但是两台机器的stderr仍然是右边的错,所以奇怪的是,结果怎么出来的?网上说是因为资源分配不够,但是我分配了executor 10G资源,反而出现下面这种问题然后有些

2021-03-06 16:54:13 2819 1

原创 从本地上传文件到hdfs,并在程序中读区

背景自己在使用spark MLlib的时候,在单机下反而比分布式下更快,所以猜测是从本地读数据比较慢,所以想把数据从本地弄到hdfs上上传数据到hdfs查看hdfs 根目录/下文件,发现有两种hadoop fs -ls /hdfs dfs -ls /创建一个新的文件夹/dataHadoop fs -mkdir /data上传文件到hdfshadoop fs -put ~/project/test.txt /data删除文件hadoop fs -rm /data/xxx...

2021-03-03 22:39:00 317 1

原创 spark-submit后发现程序没有分布式运行

问题描述:spark-submit后发现程序没有分布式运行w3m http://localhost:8080发现要用--master spark://[masterip]:7077命令运行,例如spark-submit --master spark://masternode:7077 yourapp但是仍然不行,出现如下状况8080 UI显示如下:原因分析:master和worker之间通信出了问题,因为用一台机器座位worker和master是可以运行的仔细看,下图这里出了问题

2021-03-03 20:23:04 287

原创 spark中ImportError: No module named numpy原因和解决方法

问题描述spark 集群运行的时候,报错ImportError: No module named numpy但是想来想去记得numpy都安装了,但其实不是的问题分析spark集群运行,需要所有的机器都有numpy,自己使用了一台新的机器dl21,这个机器原本没有自带numpy,需要安装解决方案sudo apt-get updatesudo apt-get install python-numpy python-scipy python-matplotlib ipython ipython-n

2021-03-03 20:06:08 1904 2

原创 Linux配置了环境变量JAVA仍然是openjdk

问题描述不使用openjdk,使用jdk,下载完后,也配置了环境变量反复检查/etc/profile~/.bashrc均没有错误,但是java -version仍旧是openjdk解决方案需要删除/usr/bin下的java文件

2021-03-03 16:13:41 1068 1

原创 Java HotSpot(TM) Server VM warning: You have loaded library /home/xxx/spark/hadoop-2.6.4/lib/native/

问题描述:Java HotSpot™ Server VM warning: You have loaded library /home/xxx/spark/hadoop-2.6.4/lib/native/libhadoop.so which might have disabled stack guard. The VM will try to fix the stack guard now.It’s highly recommended that you fix the library with 'ex

2021-03-03 10:26:33 1019

原创 Hadoop集群搭建教程(详细)

详细的参考这个:https://blog.csdn.net/fanxin_i/article/details/80425461其中初始化hadoop应改为下面这两行命令:bin/hadoop namenode -formathdfs namenode -format在浏览器中输入 http://[master name]:18088 能够访问hadoop管理界面。根据自己的配置,写后面的端口号,这个教程里是18088,有的是8088遇到了问题但是这时候发现,active

2021-03-02 23:31:55 751

原创 可以配置环境变量的地方

/etc/prifile~/.bashrc另外有下面博文可以参考https://blog.csdn.net/zhqshx/article/details/39182397?utm_source=blogxgwz7

2021-03-02 14:39:26 58

原创 安装jdk,即使配置好环境变量,依旧报错

安装好官网jdk,配置好环境变量/etc/profile,也sorce了,也退出重进系统了,但是依旧提示-bash: /home/xxx/spark/jdk1.8.0_281/bin/jps: No such file or directory查看了文件权限,都是有-x权限的最后搜了有这么一条https://askubuntu.com/questions/634024/bash-usr-bin-java-no-such-file-or-directory运行下面命令,即可sudo apt-g

2021-03-02 14:07:33 349

原创 github配置了SSH keys仍然无法clone项目

问题描述:在一台新的机器,想git clone一个自己的项目,发现即使配置了SSH keys,仍然显示没有权限原因分析:一台新的机器,需要配置用户名和邮箱,再运行如下命令ssh -T git@github.com解决方案:首先,运行git config --list查看用户名和邮箱有没有配置,如果是空的则没有配置配置用户名和邮箱,分别使用下面俩命令git config --global user.name "x x x"git config --global user.email "

2021-03-01 17:31:38 3130 1

原创 提交程序到集群模式(cluster mode)下运行

cluster mode提交程序到集群模式下(cluster mode)运行。在集群模式下,驱动程序是从集群中的一个工作进程启动的,客户机进程在完成提交应用程序的职责后立即退出,而不必等待应用程序完成。使用命令spark-submit --master spark://1xxx.xxx.xx.x:7077 test.py在代码中创建 SparkContext 对象时conf = SparkConf().setAppName("appName").setMaster("spark://1xxx.

2021-02-27 20:37:26 406

原创 Ctrl+Z 暂停程序及重启程序

Ctrl+Z - 暂停进程并放入后台jobs - 显示当前暂停的进程bg N 使第N个任务在后台运行fg N 使第N个任务在前台运行bg, fg 不带 N 时表示对最后一个进程操作On Unix-like systems, Control+Z is the most common default keyboard mapping for the key sequence that suspends a process.[2] When entered by a user at their comp

2021-02-27 12:48:27 782

原创 kill -9 杀不掉jps进程

问题描述:jps发现有一些进程,但是用kill -9 pid杀不掉原因分析:发现这个进程是僵尸进程有两种方式查看进程是不是僵尸????‍♂️进程top命令ps pid解决方案:网上搜到如下解决方案:https://www.cnblogs.com/xubiao/p/6497390.htmlhttps://blog.csdn.net/qq_34477362/article/details/86685724如果业务不繁忙,允许停机,可以使用重启机器来解决kill -9 父进程号

2021-02-27 12:32:06 1328

原创 对于CoordinateMatrix使用toRowMatrix()转换后,行数变少的问题(行粘连)

问题描述:对于mat = CoordinateMatrix(entries),mat 使用rowMat = mat.toRowMatrix() 转换后,行数变少。通过进一步查看rowMat发现,出现了几行粘连的情况:程序代码如下: rowNum = 0 colNum = 0 valNum = 0 mtxEntries = [] with open("A.out") as fileA: [rowNum_S, colNum_S, valNum_S]

2021-02-26 20:49:46 246

原创 java.lang.IllegalArgumentException: requirement failed: Found duplicate indices: 766.

问题描述:spark python中使用 CoordinateMatrix的时候出现java.lang.IllegalArgumentException: requirement failed: Found duplicate indices: 766.原因分析:在矩阵的输入文件中,存在重复的值,这是由于原数据hash冲突引起的,哈希冲突存在是正常的。解决方案:去除重复元素使用如下方法https://www.cnblogs.com/yunlongaimeng/p/8728647.html

2021-02-26 13:01:33 463

原创 AttributeError: ‘PipelinedRDD‘ object has no attribute ‘toDF‘

问题描述:spark 运行遇到如下问题AttributeError: 'PipelinedRDD' object has no attribute 'toDF'解决方案:参考了如下https://stackoverflow.com/questions/32788387/pipelinedrdd-object-has-no-attribute-todf-in-pyspark加入如下代码from pyspark.sql import SparkSessionspark = SparkSessi

2021-02-26 09:40:32 1591

原创 spark运行分布式集群

文章目录运行发布python程序集群配置及启动提交应用worker出现问题问题描述解决方法注意运行发布python程序当WARN太多设置log4j.properties文件log4j.rootCategory=WARN, console运行python程序spark-submit sparktest.py可直接启动集群配置及启动将编译好的 Spark 复制到所有机器的一个相同的目录下,比如 /home/yourname/spark设置好从主节点机器到其他机器的 SSH

2021-02-19 17:21:47 139

原创 spark master无法正常启动,worker正常启动

背景试用jps查看是否正常启动问题描述:dl8作为master时,可以正常启动master和worker,而dl23作为master时,无法启动master,但可以正常启动workerstarting org.apache.spark.deploy.master.Master, logging to /home/x x x/spark/spark-2.4.7-bin-hadoop2.6/logs/spark-xxx-org.apache.spark.deploy.master.Master-1-ss

2021-02-17 10:54:12 1625 2

原创 八皇后问题

回溯(Backtracking)算法不需要实际创建树,只需要跟踪当前研究分支中的值,状态空间树在这个算法中是隐式存在的,因为没有实际构建他。 需要使用蒙特卡洛方法(Monte Carlo Algorithm)估算回溯算法的效率。#include<iostream>#include<math.h>using namespace std;//算法5.1八皇后问题的回溯算法int col[10];/

2017-04-25 18:38:23 692

原创 Request对象

Request对象是HttpRequest类的一个实例他的作用是读取客户端在Web请求的过程中传送的参数。 在访问一个网页的时候,在浏览器的地址栏中输入网址,即可显示网页。为什么浏览器需要用这个路径名和名称组成的网址?是因为WWW是一个无序的环境所以需要采用某种操作来让服务器识别每个客户端,全路径和名称的组合仅仅是在请求页面的浏览器时向Web服务器发送一个值。 获取用户提交的信息方法1:Quer

2017-04-13 16:45:34 537

原创 任务安排问题(贪心法)

贪心法满足条件:1.贪心选择性 2.优化子结构输入:S={1,2,……,n}个任务,F={[Si ,f i]},为任务的开始时间和结束时间**输出:**S的最大相容集合(也就是如何选择任务,才能执行最多的任务?)贪心思想: 为了选择最多的相容活动,每次选fi最小的活动,也就是结束时间最小的活动,使我们能够余下更多的时间选择更多的活动。算法伪代码:贪心-Activity-Selector(S,F)

2017-03-31 23:24:48 3541 1

原创 带有最终期限的调度安排

头文件:#include 格式: sort(a,a+n)代表从a首地址到a的尾地址.sort(a,a+n,cmp)cmp为自定义的函数,使得sort按自己的意愿排序.1.bool cmp(类型名称 a,类型名称 b){return a>b;} 使得数组从大到小排序 2.bool cmp(结构体名称 a,结构体名称 b){return a.data1>b.data1;}

2017-03-29 11:34:09 966

原创 Prim算法

Prim算法

2017-03-26 23:34:04 473

原创 算法3.12 使用分治法的序列对准

这是一种效率即为底下的方法,在运行的时候,能够感觉出他有多慢,后面会有使用DP的方法#include<iostream>#include<stdio.h>#include<stdlib.h>#include<string>#include<string.h>#include<math.h>#include<algorithm>using namespace std;//算法3.12

2017-03-21 22:02:45 344

原创 Matlab学习

1.句柄>> clear all;>> close all;>> N=64;>> n=0:1:N-1;>> f0=100;>> fs=1000;>> x=cos(2*pi*f0/fs*n);>> figure;>> h=plot(x);%%shezhi yi ge ju bing >> p=get(h);%% huo de ju bing>> set(h,'color','r'

2017-03-15 09:57:32 490

原创 3.5节最优二叉查找树

#include<iostream>#include<stdio.h>#include<stdlib.h>#include <string.h>#include<algorithm>#define keytype intusing namespace std;keytype Key[20]={4,5,6,7};//包含了n个键float p[20]={3/8,3/8,1/8,1/8};

2017-03-14 23:57:45 606

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除