随手记
merrily01
Talk is cheap 、show me the code .
展开
-
spark打包命令
./dev/make-distribution.sh --name hadoop2.7.1 --tgz -Phadoop-2.7 -Psparkr -Phive -Phive-1.2 -Phive-thriftserver -Pyarn -Pkubernetes -DskipTests -Dmaven.test.skip=true原创 2020-11-24 17:02:30 · 232 阅读 · 0 评论 -
Error: Could not find or load main class XXX 或 Main class cannot resolve XXX
非maven项目,简简单单的Scala Object main函数调方法,想run或debug起来,结果idea报错Error: Could not find or load main class XXX不是啥sdk或 *..iml的问题,需要确认的是,是否将要调试的class类所在的根目录设置为sources root具体:参考:https://stackoverflow.com/questions/21884217/cant-choose-class-as-main-class-i.原创 2020-10-09 15:28:13 · 1090 阅读 · 0 评论 -
Spark编码格式校验,引包顺序
import顺序,空行以及格式:java.*scala.*第三方包按字母序如com.*org.*org.apache.spark.*原创 2020-07-28 11:32:51 · 211 阅读 · 0 评论 -
如何使用火焰图对Spark的executor的CPU使用率进行profile?具体步骤,如何操作?
需要对executor CPU进行profile,看调用栈,有没有函数性能瓶颈,想用火焰图。1. 登录executor所在NM节点;2. 通过ps -ef | grep appId/executor 结合 jps 找到相应executor进程,找到进程pid;3. 通过以下脚本,获取(定时抓取)供profile用的jstack和top等文件:#!/bin/bashif [ $# -eq 0 ]; then echo >&2 "Usage: jstackSeries原创 2020-07-23 21:40:27 · 873 阅读 · 0 评论 -
spark-sql显示表头header
spark-sql --hiveconf hive.cli.print.header=true原创 2020-05-25 18:40:52 · 4027 阅读 · 1 评论 -
hive server 2 服务端及beeline client客户端 远程debug方式
hive server 2 服务端代码远程debug调试方式:1. idea 添加debug 远程调试,如下:2.将idea 远程debug参数添加到vi hadoop_conf/hadoop-env.sh 中HADOOP_CLIENT_OPTS 配置项中,如:export HADOOP_CLIENT_OPTS="-Xmx5g -agentlib:jdwp=tran...原创 2020-04-24 10:43:59 · 2276 阅读 · 2 评论 -
常用docker知识【持续更新】
1. 基于Dockerfile制作一个镜像:docker build -t docker tag docker push 2. 基于某个镜像启动一个pod:docker run -i -t repo.XX.local/centos/centos-jdk:7.5-XX原创 2020-04-17 10:59:49 · 111 阅读 · 0 评论 -
scaladiagrams看scala类图依赖关系
1. clone并buildscaladiagrams:git clone https://github.com/mikeyhu/scaladiagrams.gitcd scaladiagrams./build注意: build过程可能遇到本地sbt问题,详见:https://blog.csdn.net/merrily01/article/details/1053913982...原创 2020-04-08 17:16:15 · 856 阅读 · 2 评论 -
Error wrapping InputStream in GZIPInputStream: java.io.EOFException
问题:本地编译scaladiagrams,报错如下,看日志应该是本地sbt环境问题:Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=256m; support was removed in 8.0[info] Loading global plugins from /Users/XXXX/.s...原创 2020-04-08 16:50:20 · 814 阅读 · 0 评论 -
Spark本地跑UT的方法
1. 跑具体某个UT✗ ./build/mvn test -Dtest=moo -DwildcardSuites=org.apache.spark.metrics.sink.JtsdbSinkSuite2. 跑某个模块下所有UT,如:mvn clean package -Pyarn -Phadoop-2.7 -Pkubernetes -Dhadoop.ver...原创 2020-04-02 18:40:30 · 694 阅读 · 0 评论 -
Spark On Kubernetes报错Permission denied: user=root, access=WRITE, inode="/user/spark/log":hadoop:supe
Spark On Kubernetes 提交测试任务,driver pod 报错日志,如下:19/11/06 07:38:05 INFO OutputCommitCoordinator$OutputCommitCoordinatorEndpoint: OutputCommitCoordinator stopped!19/11/06 07:38:05 INFO SparkContext: S...原创 2019-11-06 15:54:15 · 773 阅读 · 0 评论 -
Spark on Kubernetes提交任务报错:Expected HTTP 101 response but was '403 Forbidden'
环境:Spark版本: 2.4.3Kubernetes版本:v1.16.2问题:提交spark-submit example.jar 以cluster方式到k8s集群,driver-pod报错如下:19/11/06 07:06:54 INFO ExecutorPodsAllocator: Going to request 5 executors from Kubernetes...原创 2019-11-06 15:28:43 · 7475 阅读 · 0 评论 -
Spark on Kubernetes提交测试任务失败报错:User "system:serviceaccount:default:default" cannot get resource "pods
Spark On Kubernetes 通过cluster方式提交spark-submit example.jar包测试任务,driver-pod创建成功,任务失败,driver pod报错日志如下:External scheduler cannot be instantiatedCaused by: io.fabric8.kubernetes.client.KubernetesClien...原创 2019-11-06 14:27:39 · 8275 阅读 · 0 评论 -
Spark On Kubernetes 提交测试任务
自己在虚拟机上搭建了一个kubernetes测试集群,通过Spark官方文档,提交一个测试任务到kubernetes集群上执行,记录一下:1. 提交命令:cluster模式:$ bin/spark-submit \ --master k8s://https://ip:port \ --deploy-mode cluster \ --name spark-pi ...原创 2019-11-06 14:11:25 · 1248 阅读 · 5 评论 -
kubernetes集群中打包并上传Spark镜像
打包镜像:docker build -t spark-2.4.3-image-merrily01 -f kubernetes/dockerfiles/spark/Dockerfile .docker push XXX遇到问题1:docker pushspark-2.4.3-image-merrily01 失败,报错:hadoop@master:/software/serv...原创 2019-11-06 13:15:57 · 436 阅读 · 0 评论 -
不知道机器密码,如何通过远程获取传文件?
背景:两台机器,通过跳转方式进入,均不知道密码,想通过scp,实现传递文件,该如何实现?方案:1. 在其中一台机器,存放文件的目录下:python -m SimpleHTTPServer可以空格后跟端口号,默认端口是8000比如:python -m SimpleHTTPServer 80端口80 的时候 ,wget时不需要本地代理,非80端口,wget请求时,可能需要......原创 2019-07-26 19:16:50 · 352 阅读 · 0 评论 -
Ubuntu安装hive
1. 安装mysqlhttps://www.cnblogs.com/hanyefeng/p/5144500.html遇到问题:忘记Ubuntu root密码,修改办法:sudo passwdhttps://blog.csdn.net/bitcarmanlee/article/details/786221982. 安装hivehive包下载地址:http://archi...原创 2019-05-07 10:13:29 · 902 阅读 · 0 评论