自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

runzhliu大数据/容器日记

记录一些工作中碰到的大数据/容器计算的问题

  • 博客(15)
  • 收藏
  • 关注

原创 yum install空间不足

本地要编一个 ceph-exporter,需要 ceph 的相关库,于是在开发机上 yum install librados2-devel,报错了,因为第一次遇到所以记录一下解决的思路。具体报错的信息如下。➜ / yum install ceph-devel已加载插件:fastestmirrorRepository base is listed more than once in the configurationRepository updates is listed more than onc

2020-06-27 22:25:11 1643

原创 prometheus-nginxlog-exporter构建Nginx日志监控

lunimous 可以开启 dashboradrgw 通过 prometheus-nginxlog-exporter 可以解析 Nginx 日志,还有一些正则可以去处理,然后通过 relabel 的配置,让其在指标数据上打上标签。civetweb 没有在日志记录请求返回的时间,所以考虑用 Nginx 来替换,为了能给 Ceph RGW 加一个请求相关的监控,所以需要去解析日志,在 prometheus-nginxlog-exporter 中,通过配置文件,可以把标签和端口等设置好,然后让 prometh

2020-06-27 10:01:38 4485

原创 s3cmd put文件的过程

通过 s3cmd 上传文件的命令是 s3cmd put,s3cmd Put file into bucket s3cmd put FILE [FILE...] s3://BUCKET[/PREFIX]

2020-06-27 08:46:52 1722

原创 Ceph RGW配置Nginx代理出现S3Error: 403 (Forbidden)

因为 RGW 的默认 web

2020-06-24 07:09:31 2988

原创 OmniDiskSweeper清理系统文件

公司发的电脑只有250G,经常因 JetBrains 全家桶装多了磁盘都快爆了,更不要打开多个 IDE,内存不够的时候还要刷到 swap,总之电脑经常崩溃,一查存储空间发现系统经常性达到180G,应用30G装完就没多少剩下来了。印象中 MacOS 系统文件不该这么大,后来查了一下发现是之前本地调试 Docker 的时候,安装了 Docker for Mac,把镜像文件存储路径放在 /Users/xxx/Library/ 这个目录下了,导致这部分文件归到系统里去了。推荐 OmniDiskSweeper 这个

2020-06-23 06:58:47 1492

原创 【Kubernetes】通过ConfigMap修改容器的DNS

业务容器需要在 A 集群解析 B 集群的容器,已知 B 集群的 Pod 如果重启后,IP 会变化,所以在 B 集群创建 StatefulSet,并且创建 Headless Service,A 容器通过访问 B 集群这些服务的 ServiceName 来通信,因此 A 集群容器需要在访问 B 集群 ServiceName 的时候能够解析出 IP,所以这里通过给 B 集群的 kube-dns 创建负载均衡或者内网 IP,之后将内网 IP 写入 /etc/resolv.conf 文件中,在 A 集群创建 Conf

2020-06-20 09:20:30 953

原创 【Tensorflow 2.x】检验MKL

Tensorflow 2.x 关于 MKL 验证的方法移到了其他 Module 下,所以原来检验的方法换掉了。按照 Intel 官网的提示 Tensorflow 1.x 的检验语法是 python -c"import tensorflow; print(tensorflow.pywrap_tensorflow.IsMklEnabled())",这在 Tensorflow 2.x 里会报错,需要改成 python -c "from tensorflow.python.framework import test

2020-06-19 07:06:37 633

原创 【spark operator】remote error: tls: bad certificate

用 spark operator 的 Helm Charts 部署 spark operator,因为 spark operator 支持通过 webhook 来给 Driver/Executor Pod 添加 initContainer 这些选项,但是部署完之后发现下面的错误。因为是证书问题,所以一下子就锁定是创建 webhook 服务的过程有问题了。所以查一下 webhook init 的 Job 的日志可以看到下面的错误。这个问题是因为之前在部署的时候,直接使用 spark operator

2020-06-16 10:11:12 2197

原创 kubernetes dashboard insecure配置

生产集群做这样的操作是很危险的,不建议在生产集群上尝试对于初学者来说,在学习 kubernetes 的时候,如果能有一个可视化的界面看,那会大有帮助的。大家都知道 kubernetes/dashboard 就是一个非常好用的可视化工具 。但是由于刚接触 kubernetes 甚至是 docker,不少同学在配置的时候,会搞不清楚 secret, token 这些概念,以至于很难登录,甚至会碰到很多权限问题,所以本文简单讲一下,如果将 dashboard 配置成没有权限限制的工具。首先去 docke.

2020-06-15 20:53:45 614

原创 openmpi超过50个节点的无法运行

之前在测试 openmpi 4.0.0 的时候,发现超过50个节点就无法运行,经过测试验证,在 4.0.3 版本是可以的,用户可以升级一下。Referencehttps://github.com/open-mpi/ompi/issues/6691https://github.com/open-mpi/ompi/issues/6618https://github.com/open-mpi/ompi/pull/6714...

2020-06-15 10:36:09 440

原创 Version of Delve is too old for this version of Go【Goland Debug】报错

最近升级了 Go 到 1.14,发现使用 Goland debug 程序的时候报错了。完整的报错信息如下。API server listening at: 127.0.0.1:53951Version of Delve is too old for this version of Go (maximum supported version 1.13, suppress this error with --check-go-version=false)Debugger finished with ex

2020-06-12 12:14:02 9515 1

原创 容器共享GPU时查看容器使用的GPU编号

对于单机多卡的 GPU 服务器,在做容器的 GPU 分配的时候,可以选择通过环境变量 NVIDIA_VISIBLE_DEVICES来指定 GPU 的索引或者 UUID。因为在容器中看到的 GPU 索引都是从0开始的,如果想找到对应母机上的 GPU 卡,通过 UUID 又不太好确定。...

2020-06-11 11:28:59 3292

原创 遇到mpi worker exited on signal 9

运行一个 mpi-operator 的 demo(这个 demo 还是我提交的…),看到如下错误。An MPI communication peer process has unexpectedly disconnected. Thisusually indicates a failure in the peer process (e.g., a crash orotherwise exiting without calling MPI_FINALIZE first).Although this

2020-06-09 10:52:50 2970 2

原创 遇到ELF: not found

之前镜像运行不起来,改了一下 CMD 发现更有问题了,见下图。本质上,应该是把二进制文件当做 shell 文件来执行了,改掉红色方框的就可以了。Referencehttps://stackoverflow.com/questions/57446579/executable-says-line-1-elf-not-found-when-starts...

2020-06-09 09:50:12 10210 1

原创 apt-get update遇到NO_PUBKEY

这是因为给 Ubuntu 安装软件的时候需要做验证,当然了,这个并不是必须的,也就是你的容器里也可以装没有经过认证可能不安全的源中安装需要的软件,虽然不建议,但是有时候为了快速调试,比如在公司内部的源里安装软件,可以试一下。如果遇到 NO_PUBKEY 的问题,如下:root@spark-sparkoperator-58f598c98b-x7vjn:/etc/apt/trusted.gpg.d# apt-get updateGet:1 http://mirrors.tencent.com/ubuntu

2020-06-03 22:48:15 620

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除