凌云靖宇-CSDN博客

原创 prometheus context deadline exceeded

问题：部署了node-gpu-exporter，prometheus却无法手机信息，报context deadline exceeded。解决：网上好多介绍说改prometheus的配置scrape_timeout:600s，加大参数即可。实际上没不好使。最后加大exporter的资源限制解决。 resources: requests: memo...

2019-08-21 16:15:58 17268 10

原创 mds is damaged

问题：有可能节点内存被某进程耗尽，造成多fs的某个mds 损坏#ceph health detailHEALTH_ERR mds rank 0 is damaged; mds cluster is degradedmds.0 is damagedmds cluster is degraded解决：ceph fs status查看损坏的fsIntelligent_Innovation_L...

2019-08-21 16:09:43 1020

原创 k8s nginx-ingrss-controller无法解析https请求

问题：HTTPS转发报错failed to convert certificate chain from PEM to DER: PEM_read_bio_X509_AUX() failed分析：谷歌搜索https://github.com/kubernetes/ingress-nginx/issues/4106分析是Nginx Ingress Controller版本问题， It can b...

2019-08-07 16:33:46 949

原创 docker启动失败 Failed to start Docker Application Container Engine

问题分析：/usr/lib/systemd/system/docker.service中ExecStart=/usr/bin/dockerd --storage-driver=devicemapper --storage-opt=dm.thinpooldev=/dev/mapper /docker-thinpool --storage-opt dm.use_deferred_removal=...

2019-08-02 22:16:02 644

原创 k8s如何为节点资源预留

问题：节点用户训练cpu过高或者内存消耗过高会对节点系统进程以及kube进程产生影响。解决：Kubelet Node AllocatableKubelet Node Allocatable用来为Kube组件和System进程预留资源，从而保证当节点出现满负荷时也能保证Kube和System进程有足够的资源。目前支持cpu, memory, ephemeral-storage三种资源...

2019-07-04 21:39:01 2817

转载解决“/bin/bash^M: bad interpreter: No such file or directory”

在执行shell脚本时提示这样的错误主要是由于shell脚本文件是dos格式，即每一行结尾以\r\n来标识，而unix格式的文件行尾则以\n来标识。查看脚本文件是dos格式还是unix格式的几种办法。（1）cat -A filename 从显示结果可以判断，dos格式的文件行尾为^M，unix格式的文件行尾为，unix格式的文件行尾为，unix格式的文件行尾为。（2）od -t x1 fi...

2019-06-18 11:20:37 2427 1

原创 ceph集群全部停机开机

需求：机房停电，或者需要搬迁，需要所有ceph节点关机操作;关机：第一步：先在admin节点执行以下命令关闭集群流量 ceph osd set noout ceph osd set norecover ceph osd set norebalance ceph osd set nobackfill ceph osd set nodown ceph osd set pause...

2019-05-17 15:25:02 5866 7

原创 ansible批量添加用户

ansible安装略控制节点添加到/etc/ansilbe/hosts下以用户xiaoming为例ansible ceph-node -m command -a 'useradd xiaoming'ansible ceph-nodes -m user -a 'name=xiaoming shell=/bin/bash home=/home/xiaoming/'ansible ceph-...

2019-05-17 15:01:35 2282

原创 k8s podPreset更改所有容器时间为当地时间。

问题：docker 容器默认会采用utc时区，所以K8s所起容器会比当前时间慢八个小时。解决：通过Pod Preset预设置时区环境变量或挂载宿主机时间1.配置设置时区的Pod Preset对应的Pod Preset对象创建文件如下：apiVersion: settings.k8s.io/v1alpha1kind: PodPresetmetadata: name: allow-tz...

2019-05-10 20:40:04 4011

原创 shell sh: 1: source: not found

问题：shell脚本里加source命令报错解决：$ls -l which sh/bin/sh -> dash$sudo dpkg-reconfigure dash #Select “no” when you’re asked[…]$ls -l which sh/bin/sh -> bash

2019-05-10 16:38:03 7182

原创 k8s grafana数据持久化

问题：k8s搭建的grafana容器只要一重启，配置的dashboard，添加的用户等就会重置，从而得出，grafana没有数据持久化。解决：1.先在集群建立持久花存储pvc然后挂在到容器/var目录volumeMounts:- mountPath: /varname: grafana-storagevolumes:- name: grafana-storagepersisten...

2019-05-10 15:59:55 6115 5

原创 crontab自定义脚本执行失败，但是手动执行是成功的

问题：自己写了个kubectl命令删除失败pods的脚本，然后crontab自动执行总是失败。分析：[root@k8s-master-1 lyf]# which kubectl/usr/local/bin/kubectl[root@k8s-master-1 lyf]# cat /etc/crontabSHELL=/bin/bashPATH=/sbin:/bin:/usr/sbin:/u...

2019-05-06 19:05:34 4469

原创生成socks代理以及http代理

1.如何生成socks5代理首先得有一台云服务器，然后执行#nohup ssh -i /sshlogin/.pem 52... -v -f -N -D 0.0.0.0:7070#export http_proxy=socks5://127.0.0.1:7070#export https_proxy=socks5://127.0.0.1:7070本地shell即可上网。2.有些网站并不...

2019-05-06 15:41:09 2828

原创梗概Kubernetes中的Pause容器为内部镜像源

问题：公司内网由于防火墙的原因，上不了外网，而这个时候k8s集群pods以来的pasue容器是依赖的外部镜像源，这会造成k8s节点重启后无法起pods.解决：我们知道在kubelet的配置中有这样一个参数：kubernetes中默认的配置参数是：KUBELET_POD_INFRA_CONTAINER=–pod-infra-container-image=k8s.gcr.io/pause-a...

2019-05-05 20:23:13 1968

原创强制删除k8s不正常状态的容器

1.强制删除特定pods#kubectl delete pods cloudagile-mariadb-0 -n intelligence-data-lab –grace-period=0 --force2.删除集群失败的pods#kubectl get pods --field-selector=status.phase=Failed --all-namespaces |awk ‘{ sy...

2019-05-05 19:10:37 7768

原创 linux ssh可以连接，sftp失效

问题：使用mobaXterm软件连接服务器，但是无法通过sftp打开所连服务器的文件。解决：无解，参考Google解决办法 https://www.linuxquestions.org/questions/linux-server-73/can’t-get-sftp-logging-to-work-931609/ ，将 /etc/ssh/sshd_config 中的Subsystem ...

2019-04-25 19:13:05 3231 3

原创 aws redhat7.6安装ceph

aws自带的redhat yum 源缺很多库，安装有问题

2019-04-25 19:06:26 505

原创 etcd添加新节点

第一步：etcd客户端执行[root@k8s-master-1 ~]# etcdctl member add node180 https://109.105.1.180:2380Added member named node180 with ID ead16f36d2aa4f03 to clusterETCD_NAME=“node180”ETCD_INITIAL_CLUSTER=“k8s...

2019-04-17 20:33:20 2584

原创 host pid 和container pid的对应关系

查阅相关资料发现：主机和容器的 /proc/PID/status 文件会存放其对应关系#grep -i nspid /proc/447482/statusNSpid: 16950 24

2019-03-15 21:04:36 1959

转载 locate 反向过滤

转自：https://www.cnblogs.com/xqzt/p/5426666.html1、命令简介 locate(locate) 命令用来查找文件或目录。 locate命令要比find -name快得多，原因在于它不搜索具体目录，而是搜索一个数据库/var/lib/mlocate/mlocate.db 。这个数据库中含有本地所有文件信息。Linux系统自动创建这个数据库，并且每天自...

2019-01-17 15:20:07 516

原创 windows通过iscsi挂载linux硬盘

第一步：以centos7为例，linux需要安装targetcli一、系统使用的是CentOS7.2禁用防火墙：查看状态：# systemctl status firewalld或者 firewall-cmd–state停止：# systemctl stop firewalld开机不启动：# systemctl disable firewalldSELINUX禁用：vi /etc/...

2019-01-13 17:41:55 3366

转载 Kubrnetes work NotReady ResourceExhausted work节点资源耗尽

rpc error: code = ResourceExhausted desc = grpc: received message larger than max (4196772 vs. 4194304)现象：kubernetes集群不可用，所有work节点离线问题定位：执行kubectl get node 发现work节点都是NotReady状态登入到work节点查看日志发现Nov...

2018-12-03 15:28:00 873

原创 k8s nginx-ingress too large

问题：k8s nginx-ingress-controller Failed to upload report - 413: 413 Request Entity Too Large 413 Request Entity Too Large nginx/1.13.9 解决：kind: Ingressmetadata:annotations:nginx.ing...

2018-11-28 10:27:48 2994

原创 cephdashboard

1、$ ceph mgr module enable dashboard2、添加（也可以不添加，未测试）vim /etc/ceph/ceph.conf[mgr]mgr_modules = dashboard3、# ceph config-key put mgr/dashboard/server_addr 172.20.2.2434、# netstat -antpl | grep cep...

2018-11-14 21:48:16 956

转载 Shell中的${}、##和%%使用范例

转自：https://www.cnblogs.com/Template/p/9079470.htmlShell中的${}、##和%%使用范例假设定义了一个变量为,代码如下:file=/dir1/dir2/dir3/my.file.txt可以用${ }分别替换得到不同的值：复制代码${file#*/}：　　　删掉第一个 / 及其左边的字符串：dir1/dir2/dir3/my.fil...

2018-11-12 20:19:31 415

转载 shell 多线程实现

转自：https://blog.csdn.net/dubendi/article/details/78931979需求：并发检测1000台web服务器状态（或者并发为1000台web服务器分发文件等）如何用shell实现？方案一：（这应该是大多数人都第一时间想到的方法吧）思路：一个for循环1000次，顺序执行1000次任务。实现：复制代码#!/bin/bashstart_time...

2018-11-12 20:08:32 5316 1

原创 ceph 最新版安装

Ceph 安装参考文献：1、 https://blog.csdn.net/jfengamarsoft/article/details/776839302、 https://blog.csdn.net/zcc_heu/article/details/790176243、 Ceph 官方下载地址http://download.ceph.com/rpm-luminous/el7/x86_64/...

2018-11-12 17:17:38 1562

转载 docker devicemapper loop_lvm 转为生产环境使用的direcrt_lvm

转自官网：https://docs.docker.com/storage/storagedriver/device-mapper-driver/#manage-devicemapper后续的扩容监控官网有详细的介绍Configure direct-lvm mode manuallyThe procedure below creates a logical volume configured ...

2018-11-08 19:12:13 339

原创 ceph fs status报错解决

问题描述：[root@k8s-master-2 ~]# ceph fs statusError EINVAL: Traceback (most recent call last):File “/usr/lib64/ceph/mgr/status/module.py”, line 310, in handle_commandreturn self.handle_fs_status(cmd)...

2018-11-07 11:10:59 1447

转载 find命令的用法

转自：https://www.oschina.net/translate/15-practical-linux-find-command-examples1．命令格式：find pathname -options [-print -exec -ok …]2．命令功能：用于在文件树种查找文件，并作出相应的处理3．命令参数：pathname: find命令所查找的目录路径。例如用.来表示当...

2018-11-01 13:42:57 1246

原创 ssh无法登陆k8s集群容器

1、ssh登录容器登录不上，怀疑是flannel问题经查发现flannel没有，sytemctl status flanneld发现是etcd证书问题。因为重新生成的etcd证书没有粘贴到180上，所以会出错。把新生成的证书拷贝到/etc/etcd/ssl systemctl restart flaaneld,下即可2、问题依然没哟解决，发现是flannel和docker0网段不一致问题。...

2018-10-29 20:27:05 2276 1

转载 ssh登录慢

如果做运维就一定会遇到ssh登陆Linux服务器慢的问题，问题比较好解决，一般Google之后有很多文章都告诉你解决方法，但是很少有文章分析为什么会慢，这篇文章简单分析下ssh登陆慢的原因。useDNS配置导致登陆慢如果ssh server的配置文件（通常是 /etc/ssh/sshd_config ）中设置 useDNS yes ，可能会导致 ssh 登陆卡住几十秒。按照网上的方法将该配置项...

2018-10-27 19:06:06 416

转载 Kubernetes v1.10.x HA 全手动安装教程

转自 https://www.kubernetes.org.cn/3814.html本篇延续过往手动安装方式来部署 Kubernetes v1.10.x 版本的 High Availability 集群，主要目的是学习 Kubernetes 安装的一些元件关析与流程。若不想这么累的话，可以参考 Picking the Right Solution 来选择自己最喜欢的方式。本次安装的软件版本：...

2018-10-26 22:36:09 879

原创 centos7升级内核和驱动以及安装ceph

sed -i ‘s/SELINUX=enforcing/SELINUX=disabled/’ /etc/selinux/configsystemctl stop firewalldsystemctl disable firewalldexport http_proxy=http://...:8119export https_proxy=http://...:8119yum -y inst...

2018-10-26 22:00:34 2681

转载 confd+etcd

转自http://www.361way.com/confd-etcd/5470.htmlConfd是一个轻量级的配置管理工具。通过查询Etcd，结合配置模板引擎，保持本地配置最新，同时具备定期探测机制，配置变更自动reload。其后端支持的数据类型有：etcd、consul、vault、environment variables、redis、zookeeper、dynamodb、stackeng...

2018-10-25 17:23:44 622 2

原创 ceph recovery controlled

[root@k8s-master-1 ceph-cluster]# cat ceph.conf[global]fsid = 380d4224-78e1-4d19-95c7-74c278712b0emon_initial_members = k8s-n2, k8s-m3, k8s-master-1, k8s-master-2, k8s-n1#mon_host = 109.105.1.208,...

2018-10-24 21:40:32 877

转载 ceph recovery的速度控制

转自https://ceph.com/planet/ceph-recover的速度控制/前言磁盘损坏对于一个大集群来说，可以说是必然发生的事情，即使再小的概率，磁盘量上去，总会坏那么几块盘，这个时候就会触发内部的修复过程，修复就是让不满足副本要求的PG，恢复到满足的情况一般是踢掉坏盘和增加新盘会触发这个修复过程，或者对磁盘的权重做了修改，也会触发这个迁移的过程，本篇是用剔除OSD的方式来对这...

2018-10-24 21:33:36 4006

转载 ceph crush class

转自http://www.cnblogs.com/sisimi/p/7804138.htmlluminous版本的ceph新增了一个功能crush class，这个功能又可以称为磁盘智能分组。因为这个功能就是根据磁盘类型自动的进行属性的关联，然后进行分类。无需手动修改crushmap，极大的减少了人为的操作。以前的操作有多麻烦可以看看：ceph crushmapceph中的每个osd设备都可以...

2018-10-23 21:09:31 787

转载 ceph crush device classes(luminous)

转自https://ceph.com/community/new-luminous-crush-device-classes/New in Luminous: CRUSH device classesThe flexibility of the CRUSH map in controlling data placement in Ceph is one of the system’s grea...

2018-10-23 20:57:24 423

空空如也

空空如也