- 博客(79)
- 收藏
- 关注
原创 prometheus context deadline exceeded
问题:部署了node-gpu-exporter,prometheus却无法手机信息,报context deadline exceeded。解决:网上好多介绍说改prometheus的配置scrape_timeout:600s,加大参数即可。实际上没不好使。最后加大exporter的资源限制解决。 resources: requests: memo...
2019-08-21 16:15:58
17268
10
原创 mds is damaged
问题:有可能节点内存被某进程耗尽,造成多fs的某个mds 损坏#ceph health detailHEALTH_ERR mds rank 0 is damaged; mds cluster is degradedmds.0 is damagedmds cluster is degraded解决:ceph fs status查看损坏的fsIntelligent_Innovation_L...
2019-08-21 16:09:43
1020
原创 k8s nginx-ingrss-controller无法解析https请求
问题:HTTPS转发报错failed to convert certificate chain from PEM to DER: PEM_read_bio_X509_AUX() failed分析:谷歌搜索https://github.com/kubernetes/ingress-nginx/issues/4106分析是Nginx Ingress Controller版本问题, It can b...
2019-08-07 16:33:46
949
原创 docker启动失败 Failed to start Docker Application Container Engine
问题分析:/usr/lib/systemd/system/docker.service中ExecStart=/usr/bin/dockerd --storage-driver=devicemapper --storage-opt=dm.thinpooldev=/dev/mapper /docker-thinpool --storage-opt dm.use_deferred_removal=...
2019-08-02 22:16:02
644
原创 k8s如何为节点资源预留
问题:节点用户训练cpu过高或者内存消耗过高会对节点系统进程以及kube进程产生影响。解决:Kubelet Node AllocatableKubelet Node Allocatable用来为Kube组件和System进程预留资源,从而保证当节点出现满负荷时也能保证Kube和System进程有足够的资源。目前支持cpu, memory, ephemeral-storage三种资源...
2019-07-04 21:39:01
2817
转载 解决“/bin/bash^M: bad interpreter: No such file or directory”
在执行shell脚本时提示这样的错误主要是由于shell脚本文件是dos格式,即每一行结尾以\r\n来标识,而unix格式的文件行尾则以\n来标识。查看脚本文件是dos格式还是unix格式的几种办法。(1)cat -A filename 从显示结果可以判断,dos格式的文件行尾为^M,unix格式的文件行尾为,unix格式的文件行尾为,unix格式的文件行尾为。(2)od -t x1 fi...
2019-06-18 11:20:37
2427
1
原创 ceph集群全部停机开机
需求:机房停电,或者需要搬迁,需要所有ceph节点关机操作;关机:第一步:先在admin节点执行以下命令关闭集群流量 ceph osd set noout ceph osd set norecover ceph osd set norebalance ceph osd set nobackfill ceph osd set nodown ceph osd set pause...
2019-05-17 15:25:02
5866
7
原创 ansible批量添加用户
ansible安装略控制节点添加到/etc/ansilbe/hosts下以用户xiaoming为例ansible ceph-node -m command -a 'useradd xiaoming'ansible ceph-nodes -m user -a 'name=xiaoming shell=/bin/bash home=/home/xiaoming/'ansible ceph-...
2019-05-17 15:01:35
2282
原创 k8s podPreset更改所有容器时间为当地时间。
问题:docker 容器默认会采用utc时区,所以K8s所起容器会比当前时间慢八个小时。解决:通过Pod Preset预设置时区环境变量或挂载宿主机时间1.配置设置时区的Pod Preset对应的Pod Preset对象创建文件如下:apiVersion: settings.k8s.io/v1alpha1kind: PodPresetmetadata: name: allow-tz...
2019-05-10 20:40:04
4011
原创 shell sh: 1: source: not found
问题:shell脚本里加source命令报错解决:$ls -l which sh/bin/sh -> dash$sudo dpkg-reconfigure dash #Select “no” when you’re asked[…]$ls -l which sh/bin/sh -> bash
2019-05-10 16:38:03
7182
原创 k8s grafana数据持久化
问题:k8s搭建的grafana容器只要一重启,配置的dashboard,添加的用户等就会重置,从而得出,grafana没有数据持久化。解决:1.先在集群建立持久花存储pvc然后挂在到容器/var目录volumeMounts:- mountPath: /varname: grafana-storagevolumes:- name: grafana-storagepersisten...
2019-05-10 15:59:55
6115
5
原创 crontab自定义脚本执行失败,但是手动执行是成功的
问题:自己写了个kubectl命令删除失败pods的脚本,然后crontab自动执行总是失败。分析:[root@k8s-master-1 lyf]# which kubectl/usr/local/bin/kubectl[root@k8s-master-1 lyf]# cat /etc/crontabSHELL=/bin/bashPATH=/sbin:/bin:/usr/sbin:/u...
2019-05-06 19:05:34
4469
原创 生成socks代理以及http代理
1.如何生成socks5代理首先得有一台云服务器,然后执行#nohup ssh -i /sshlogin/.pem 52... -v -f -N -D 0.0.0.0:7070#export http_proxy=socks5://127.0.0.1:7070#export https_proxy=socks5://127.0.0.1:7070本地shell即可上网。2.有些网站并不...
2019-05-06 15:41:09
2828
原创 梗概Kubernetes中的Pause容器为内部镜像源
问题:公司内网由于防火墙的原因,上不了外网,而这个时候k8s集群pods以来的pasue容器是依赖的外部镜像源,这会造成k8s节点重启后无法起pods.解决:我们知道在kubelet的配置中有这样一个参数:kubernetes中默认的配置参数是:KUBELET_POD_INFRA_CONTAINER=–pod-infra-container-image=k8s.gcr.io/pause-a...
2019-05-05 20:23:13
1968
原创 强制删除k8s不正常状态的容器
1.强制删除特定pods#kubectl delete pods cloudagile-mariadb-0 -n intelligence-data-lab –grace-period=0 --force2.删除集群失败的pods#kubectl get pods --field-selector=status.phase=Failed --all-namespaces |awk ‘{ sy...
2019-05-05 19:10:37
7768
原创 linux ssh可以连接,sftp失效
问题:使用mobaXterm软件连接服务器,但是无法通过sftp打开所连服务器的文件。解决:无解,参考Google解决办法 https://www.linuxquestions.org/questions/linux-server-73/can’t-get-sftp-logging-to-work-931609/ ,将 /etc/ssh/sshd_config 中的Subsystem ...
2019-04-25 19:13:05
3231
3
原创 etcd添加新节点
第一步:etcd客户端执行[root@k8s-master-1 ~]# etcdctl member add node180 https://109.105.1.180:2380Added member named node180 with ID ead16f36d2aa4f03 to clusterETCD_NAME=“node180”ETCD_INITIAL_CLUSTER=“k8s...
2019-04-17 20:33:20
2584
原创 host pid 和container pid的对应关系
查阅相关资料发现:主机和容器的 /proc/PID/status 文件会存放其对应关系#grep -i nspid /proc/447482/statusNSpid: 16950 24
2019-03-15 21:04:36
1959
转载 locate 反向过滤
转自:https://www.cnblogs.com/xqzt/p/5426666.html1、命令简介 locate(locate) 命令用来查找文件或目录。 locate命令要比find -name快得多,原因在于它不搜索具体目录,而是搜索一个数据库/var/lib/mlocate/mlocate.db 。这个数据库中含有本地所有文件信息。Linux系统自动创建这个数据库,并且每天自...
2019-01-17 15:20:07
516
原创 windows通过iscsi挂载linux硬盘
第一步:以centos7为例,linux需要安装targetcli一、系统使用的是CentOS7.2禁用防火墙:查看状态:# systemctl status firewalld或者 firewall-cmd–state停止:# systemctl stop firewalld开机不启动:# systemctl disable firewalldSELINUX禁用:vi /etc/...
2019-01-13 17:41:55
3366
转载 Kubrnetes work NotReady ResourceExhausted work节点资源耗尽
rpc error: code = ResourceExhausted desc = grpc: received message larger than max (4196772 vs. 4194304)现象:kubernetes集群不可用,所有work节点离线问题定位:执行kubectl get node 发现work节点都是NotReady状态登入到work节点查看日志发现Nov...
2018-12-03 15:28:00
873
原创 k8s nginx-ingress too large
问题:k8s nginx-ingress-controller Failed to upload report - 413: 413 Request Entity Too Large 413 Request Entity Too Large nginx/1.13.9 解决:kind: Ingressmetadata:annotations:nginx.ing...
2018-11-28 10:27:48
2994
原创 cephdashboard
1、$ ceph mgr module enable dashboard2、添加(也可以不添加,未测试)vim /etc/ceph/ceph.conf[mgr]mgr_modules = dashboard3、# ceph config-key put mgr/dashboard/server_addr 172.20.2.2434、# netstat -antpl | grep cep...
2018-11-14 21:48:16
956
转载 Shell中的${}、##和%%使用范例
转自:https://www.cnblogs.com/Template/p/9079470.htmlShell中的${}、##和%%使用范例假设定义了一个变量为,代码如下:file=/dir1/dir2/dir3/my.file.txt可以用${ }分别替换得到不同的值:复制代码${file#*/}: 删掉第一个 / 及其左边的字符串:dir1/dir2/dir3/my.fil...
2018-11-12 20:19:31
415
转载 shell 多线程实现
转自:https://blog.csdn.net/dubendi/article/details/78931979需求:并发检测1000台web服务器状态(或者并发为1000台web服务器分发文件等)如何用shell实现?方案一:(这应该是大多数人都第一时间想到的方法吧)思路:一个for循环1000次,顺序执行1000次任务。实现:复制代码#!/bin/bashstart_time...
2018-11-12 20:08:32
5316
1
原创 ceph 最新版安装
Ceph 安装参考文献:1、 https://blog.csdn.net/jfengamarsoft/article/details/776839302、 https://blog.csdn.net/zcc_heu/article/details/790176243、 Ceph 官方下载地址http://download.ceph.com/rpm-luminous/el7/x86_64/...
2018-11-12 17:17:38
1562
转载 docker devicemapper loop_lvm 转为生产环境使用的direcrt_lvm
转自官网:https://docs.docker.com/storage/storagedriver/device-mapper-driver/#manage-devicemapper后续的扩容监控官网有详细的介绍Configure direct-lvm mode manuallyThe procedure below creates a logical volume configured ...
2018-11-08 19:12:13
339
原创 ceph fs status报错解决
问题描述:[root@k8s-master-2 ~]# ceph fs statusError EINVAL: Traceback (most recent call last):File “/usr/lib64/ceph/mgr/status/module.py”, line 310, in handle_commandreturn self.handle_fs_status(cmd)...
2018-11-07 11:10:59
1447
转载 find命令的用法
转自:https://www.oschina.net/translate/15-practical-linux-find-command-examples1.命令格式:find pathname -options [-print -exec -ok …]2.命令功能:用于在文件树种查找文件,并作出相应的处理3.命令参数:pathname: find命令所查找的目录路径。例如用.来表示当...
2018-11-01 13:42:57
1246
原创 ssh无法登陆k8s集群容器
1、ssh登录容器登录不上,怀疑是flannel问题经查发现flannel没有,sytemctl status flanneld发现是etcd证书问题。因为重新生成的etcd证书没有粘贴到180上,所以会出错。把新生成的证书拷贝到/etc/etcd/ssl systemctl restart flaaneld,下即可2、问题依然没哟解决,发现是flannel和docker0网段不一致问题。...
2018-10-29 20:27:05
2276
1
转载 ssh登录慢
如果做运维就一定会遇到ssh登陆Linux服务器慢的问题,问题比较好解决,一般Google之后有很多文章都告诉你解决方法,但是很少有文章分析为什么会慢,这篇文章简单分析下ssh登陆慢的原因。useDNS配置导致登陆慢如果ssh server的配置文件(通常是 /etc/ssh/sshd_config )中设置 useDNS yes ,可能会导致 ssh 登陆卡住几十秒。按照网上的方法将该配置项...
2018-10-27 19:06:06
416
转载 Kubernetes v1.10.x HA 全手动安装教程
转自 https://www.kubernetes.org.cn/3814.html本篇延续过往手动安装方式来部署 Kubernetes v1.10.x 版本的 High Availability 集群,主要目的是学习 Kubernetes 安装的一些元件关析与流程。若不想这么累的话,可以参考 Picking the Right Solution 来选择自己最喜欢的方式。本次安装的软件版本:...
2018-10-26 22:36:09
879
原创 centos7升级内核和驱动以及安装ceph
sed -i ‘s/SELINUX=enforcing/SELINUX=disabled/’ /etc/selinux/configsystemctl stop firewalldsystemctl disable firewalldexport http_proxy=http://...:8119export https_proxy=http://...:8119yum -y inst...
2018-10-26 22:00:34
2681
转载 confd+etcd
转自http://www.361way.com/confd-etcd/5470.htmlConfd是一个轻量级的配置管理工具。通过查询Etcd,结合配置模板引擎,保持本地配置最新,同时具备定期探测机制,配置变更自动reload。其后端支持的数据类型有:etcd、consul、vault、environment variables、redis、zookeeper、dynamodb、stackeng...
2018-10-25 17:23:44
622
2
原创 ceph recovery controlled
[root@k8s-master-1 ceph-cluster]# cat ceph.conf[global]fsid = 380d4224-78e1-4d19-95c7-74c278712b0emon_initial_members = k8s-n2, k8s-m3, k8s-master-1, k8s-master-2, k8s-n1#mon_host = 109.105.1.208,...
2018-10-24 21:40:32
877
转载 ceph recovery的速度控制
转自https://ceph.com/planet/ceph-recover的速度控制/前言磁盘损坏对于一个大集群来说,可以说是必然发生的事情,即使再小的概率,磁盘量上去,总会坏那么几块盘,这个时候就会触发内部的修复过程,修复就是让不满足副本要求的PG,恢复到满足的情况一般是踢掉坏盘和增加新盘会触发这个修复过程,或者对磁盘的权重做了修改,也会触发这个迁移的过程,本篇是用剔除OSD的方式来对这...
2018-10-24 21:33:36
4006
转载 ceph crush class
转自http://www.cnblogs.com/sisimi/p/7804138.htmlluminous版本的ceph新增了一个功能crush class,这个功能又可以称为磁盘智能分组。因为这个功能就是根据磁盘类型自动的进行属性的关联,然后进行分类。无需手动修改crushmap,极大的减少了人为的操作。以前的操作有多麻烦可以看看:ceph crushmapceph中的每个osd设备都可以...
2018-10-23 21:09:31
787
转载 ceph crush device classes(luminous)
转自https://ceph.com/community/new-luminous-crush-device-classes/New in Luminous: CRUSH device classesThe flexibility of the CRUSH map in controlling data placement in Ceph is one of the system’s grea...
2018-10-23 20:57:24
423
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅