自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(79)
  • 收藏
  • 关注

原创 prometheus context deadline exceeded

问题:部署了node-gpu-exporter,prometheus却无法手机信息,报context deadline exceeded。解决:网上好多介绍说改prometheus的配置scrape_timeout:600s,加大参数即可。实际上没不好使。最后加大exporter的资源限制解决。 resources: requests: memo...

2019-08-21 16:15:58 17268 10

原创 mds is damaged

问题:有可能节点内存被某进程耗尽,造成多fs的某个mds 损坏#ceph health detailHEALTH_ERR mds rank 0 is damaged; mds cluster is degradedmds.0 is damagedmds cluster is degraded解决:ceph fs status查看损坏的fsIntelligent_Innovation_L...

2019-08-21 16:09:43 1020

原创 k8s nginx-ingrss-controller无法解析https请求

问题:HTTPS转发报错failed to convert certificate chain from PEM to DER: PEM_read_bio_X509_AUX() failed分析:谷歌搜索https://github.com/kubernetes/ingress-nginx/issues/4106分析是Nginx Ingress Controller版本问题, It can b...

2019-08-07 16:33:46 949

原创 docker启动失败 Failed to start Docker Application Container Engine

问题分析:/usr/lib/systemd/system/docker.service中ExecStart=/usr/bin/dockerd --storage-driver=devicemapper --storage-opt=dm.thinpooldev=/dev/mapper /docker-thinpool --storage-opt dm.use_deferred_removal=...

2019-08-02 22:16:02 644

原创 k8s如何为节点资源预留

问题:节点用户训练cpu过高或者内存消耗过高会对节点系统进程以及kube进程产生影响。解决:Kubelet Node AllocatableKubelet Node Allocatable用来为Kube组件和System进程预留资源,从而保证当节点出现满负荷时也能保证Kube和System进程有足够的资源。目前支持cpu, memory, ephemeral-storage三种资源...

2019-07-04 21:39:01 2817

转载 解决“/bin/bash^M: bad interpreter: No such file or directory”

在执行shell脚本时提示这样的错误主要是由于shell脚本文件是dos格式,即每一行结尾以\r\n来标识,而unix格式的文件行尾则以\n来标识。查看脚本文件是dos格式还是unix格式的几种办法。(1)cat -A filename 从显示结果可以判断,dos格式的文件行尾为^M,unix格式的文件行尾为,unix格式的文件行尾为,unix格式的文件行尾为。(2)od -t x1 fi...

2019-06-18 11:20:37 2427 1

原创 ceph集群全部停机开机

需求:机房停电,或者需要搬迁,需要所有ceph节点关机操作;关机:第一步:先在admin节点执行以下命令关闭集群流量 ceph osd set noout ceph osd set norecover ceph osd set norebalance ceph osd set nobackfill ceph osd set nodown ceph osd set pause...

2019-05-17 15:25:02 5866 7

原创 ansible批量添加用户

ansible安装略控制节点添加到/etc/ansilbe/hosts下以用户xiaoming为例ansible ceph-node -m command -a 'useradd xiaoming'ansible ceph-nodes -m user -a 'name=xiaoming shell=/bin/bash home=/home/xiaoming/'ansible ceph-...

2019-05-17 15:01:35 2282

原创 k8s podPreset更改所有容器时间为当地时间。

问题:docker 容器默认会采用utc时区,所以K8s所起容器会比当前时间慢八个小时。解决:通过Pod Preset预设置时区环境变量或挂载宿主机时间1.配置设置时区的Pod Preset对应的Pod Preset对象创建文件如下:apiVersion: settings.k8s.io/v1alpha1kind: PodPresetmetadata: name: allow-tz...

2019-05-10 20:40:04 4011

原创 shell sh: 1: source: not found

问题:shell脚本里加source命令报错解决:$ls -l which sh/bin/sh -> dash$sudo dpkg-reconfigure dash #Select “no” when you’re asked[…]$ls -l which sh/bin/sh -> bash

2019-05-10 16:38:03 7182

原创 k8s grafana数据持久化

问题:k8s搭建的grafana容器只要一重启,配置的dashboard,添加的用户等就会重置,从而得出,grafana没有数据持久化。解决:1.先在集群建立持久花存储pvc然后挂在到容器/var目录volumeMounts:- mountPath: /varname: grafana-storagevolumes:- name: grafana-storagepersisten...

2019-05-10 15:59:55 6115 5

原创 crontab自定义脚本执行失败,但是手动执行是成功的

问题:自己写了个kubectl命令删除失败pods的脚本,然后crontab自动执行总是失败。分析:[root@k8s-master-1 lyf]# which kubectl/usr/local/bin/kubectl[root@k8s-master-1 lyf]# cat /etc/crontabSHELL=/bin/bashPATH=/sbin:/bin:/usr/sbin:/u...

2019-05-06 19:05:34 4469

原创 生成socks代理以及http代理

1.如何生成socks5代理首先得有一台云服务器,然后执行#nohup ssh -i /sshlogin/.pem 52... -v -f -N -D 0.0.0.0:7070#export http_proxy=socks5://127.0.0.1:7070#export https_proxy=socks5://127.0.0.1:7070本地shell即可上网。2.有些网站并不...

2019-05-06 15:41:09 2828

原创 梗概Kubernetes中的Pause容器为内部镜像源

问题:公司内网由于防火墙的原因,上不了外网,而这个时候k8s集群pods以来的pasue容器是依赖的外部镜像源,这会造成k8s节点重启后无法起pods.解决:我们知道在kubelet的配置中有这样一个参数:kubernetes中默认的配置参数是:KUBELET_POD_INFRA_CONTAINER=–pod-infra-container-image=k8s.gcr.io/pause-a...

2019-05-05 20:23:13 1968

原创 强制删除k8s不正常状态的容器

1.强制删除特定pods#kubectl delete pods cloudagile-mariadb-0 -n intelligence-data-lab –grace-period=0 --force2.删除集群失败的pods#kubectl get pods --field-selector=status.phase=Failed --all-namespaces |awk ‘{ sy...

2019-05-05 19:10:37 7768

原创 linux ssh可以连接,sftp失效

问题:使用mobaXterm软件连接服务器,但是无法通过sftp打开所连服务器的文件。解决:无解,参考Google解决办法 https://www.linuxquestions.org/questions/linux-server-73/can’t-get-sftp-logging-to-work-931609/ ,将 /etc/ssh/sshd_config 中的Subsystem ...

2019-04-25 19:13:05 3231 3

原创 aws redhat7.6安装ceph

aws自带的redhat yum 源缺很多库,安装有问题

2019-04-25 19:06:26 505

原创 etcd添加新节点

第一步:etcd客户端执行[root@k8s-master-1 ~]# etcdctl member add node180 https://109.105.1.180:2380Added member named node180 with ID ead16f36d2aa4f03 to clusterETCD_NAME=“node180”ETCD_INITIAL_CLUSTER=“k8s...

2019-04-17 20:33:20 2584

原创 host pid 和container pid的对应关系

查阅相关资料发现:主机和容器的 /proc/PID/status 文件会存放其对应关系#grep -i nspid /proc/447482/statusNSpid: 16950 24

2019-03-15 21:04:36 1959

转载 locate 反向过滤

转自:https://www.cnblogs.com/xqzt/p/5426666.html1、命令简介 locate(locate) 命令用来查找文件或目录。 locate命令要比find -name快得多,原因在于它不搜索具体目录,而是搜索一个数据库/var/lib/mlocate/mlocate.db 。这个数据库中含有本地所有文件信息。Linux系统自动创建这个数据库,并且每天自...

2019-01-17 15:20:07 516

原创 windows通过iscsi挂载linux硬盘

第一步:以centos7为例,linux需要安装targetcli一、系统使用的是CentOS7.2禁用防火墙:查看状态:# systemctl status firewalld或者 firewall-cmd–state停止:# systemctl stop firewalld开机不启动:# systemctl disable firewalldSELINUX禁用:vi /etc/...

2019-01-13 17:41:55 3366

转载 Kubrnetes work NotReady ResourceExhausted work节点资源耗尽

rpc error: code = ResourceExhausted desc = grpc: received message larger than max (4196772 vs. 4194304)现象:kubernetes集群不可用,所有work节点离线问题定位:执行kubectl get node 发现work节点都是NotReady状态登入到work节点查看日志发现Nov...

2018-12-03 15:28:00 873

原创 k8s nginx-ingress too large

问题:k8s nginx-ingress-controller Failed to upload report - 413: 413 Request Entity Too Large 413 Request Entity Too Large nginx/1.13.9 解决:kind: Ingressmetadata:annotations:nginx.ing...

2018-11-28 10:27:48 2994

原创 cephdashboard

1、$ ceph mgr module enable dashboard2、添加(也可以不添加,未测试)vim /etc/ceph/ceph.conf[mgr]mgr_modules = dashboard3、# ceph config-key put mgr/dashboard/server_addr 172.20.2.2434、# netstat -antpl | grep cep...

2018-11-14 21:48:16 956

转载 Shell中的${}、##和%%使用范例

转自:https://www.cnblogs.com/Template/p/9079470.htmlShell中的${}、##和%%使用范例假设定义了一个变量为,代码如下:file=/dir1/dir2/dir3/my.file.txt可以用${ }分别替换得到不同的值:复制代码${file#*/}:     删掉第一个 / 及其左边的字符串:dir1/dir2/dir3/my.fil...

2018-11-12 20:19:31 415

转载 shell 多线程实现

转自:https://blog.csdn.net/dubendi/article/details/78931979需求:并发检测1000台web服务器状态(或者并发为1000台web服务器分发文件等)如何用shell实现?方案一:(这应该是大多数人都第一时间想到的方法吧)思路:一个for循环1000次,顺序执行1000次任务。实现:复制代码#!/bin/bashstart_time...

2018-11-12 20:08:32 5316 1

原创 ceph 最新版安装

Ceph 安装参考文献:1、 https://blog.csdn.net/jfengamarsoft/article/details/776839302、 https://blog.csdn.net/zcc_heu/article/details/790176243、 Ceph 官方下载地址http://download.ceph.com/rpm-luminous/el7/x86_64/...

2018-11-12 17:17:38 1562

转载 docker devicemapper loop_lvm 转为生产环境使用的direcrt_lvm

转自官网:https://docs.docker.com/storage/storagedriver/device-mapper-driver/#manage-devicemapper后续的扩容监控官网有详细的介绍Configure direct-lvm mode manuallyThe procedure below creates a logical volume configured ...

2018-11-08 19:12:13 339

原创 ceph fs status报错解决

问题描述:[root@k8s-master-2 ~]# ceph fs statusError EINVAL: Traceback (most recent call last):File “/usr/lib64/ceph/mgr/status/module.py”, line 310, in handle_commandreturn self.handle_fs_status(cmd)...

2018-11-07 11:10:59 1447

转载 find命令的用法

转自:https://www.oschina.net/translate/15-practical-linux-find-command-examples1.命令格式:find pathname -options [-print -exec -ok …]2.命令功能:用于在文件树种查找文件,并作出相应的处理3.命令参数:pathname: find命令所查找的目录路径。例如用.来表示当...

2018-11-01 13:42:57 1246

原创 ssh无法登陆k8s集群容器

1、ssh登录容器登录不上,怀疑是flannel问题经查发现flannel没有,sytemctl status flanneld发现是etcd证书问题。因为重新生成的etcd证书没有粘贴到180上,所以会出错。把新生成的证书拷贝到/etc/etcd/ssl systemctl restart flaaneld,下即可2、问题依然没哟解决,发现是flannel和docker0网段不一致问题。...

2018-10-29 20:27:05 2276 1

转载 ssh登录慢

如果做运维就一定会遇到ssh登陆Linux服务器慢的问题,问题比较好解决,一般Google之后有很多文章都告诉你解决方法,但是很少有文章分析为什么会慢,这篇文章简单分析下ssh登陆慢的原因。useDNS配置导致登陆慢如果ssh server的配置文件(通常是 /etc/ssh/sshd_config )中设置 useDNS yes ,可能会导致 ssh 登陆卡住几十秒。按照网上的方法将该配置项...

2018-10-27 19:06:06 416

转载 Kubernetes v1.10.x HA 全手动安装教程

转自 https://www.kubernetes.org.cn/3814.html本篇延续过往手动安装方式来部署 Kubernetes v1.10.x 版本的 High Availability 集群,主要目的是学习 Kubernetes 安装的一些元件关析与流程。若不想这么累的话,可以参考 Picking the Right Solution 来选择自己最喜欢的方式。本次安装的软件版本:...

2018-10-26 22:36:09 879

原创 centos7升级内核和驱动以及安装ceph

sed -i ‘s/SELINUX=enforcing/SELINUX=disabled/’ /etc/selinux/configsystemctl stop firewalldsystemctl disable firewalldexport http_proxy=http://...:8119export https_proxy=http://...:8119yum -y inst...

2018-10-26 22:00:34 2681

转载 confd+etcd

转自http://www.361way.com/confd-etcd/5470.htmlConfd是一个轻量级的配置管理工具。通过查询Etcd,结合配置模板引擎,保持本地配置最新,同时具备定期探测机制,配置变更自动reload。其后端支持的数据类型有:etcd、consul、vault、environment variables、redis、zookeeper、dynamodb、stackeng...

2018-10-25 17:23:44 622 2

原创 ceph recovery controlled

[root@k8s-master-1 ceph-cluster]# cat ceph.conf[global]fsid = 380d4224-78e1-4d19-95c7-74c278712b0emon_initial_members = k8s-n2, k8s-m3, k8s-master-1, k8s-master-2, k8s-n1#mon_host = 109.105.1.208,...

2018-10-24 21:40:32 877

转载 ceph recovery的速度控制

转自https://ceph.com/planet/ceph-recover的速度控制/前言磁盘损坏对于一个大集群来说,可以说是必然发生的事情,即使再小的概率,磁盘量上去,总会坏那么几块盘,这个时候就会触发内部的修复过程,修复就是让不满足副本要求的PG,恢复到满足的情况一般是踢掉坏盘和增加新盘会触发这个修复过程,或者对磁盘的权重做了修改,也会触发这个迁移的过程,本篇是用剔除OSD的方式来对这...

2018-10-24 21:33:36 4006

转载 ceph crush class

转自http://www.cnblogs.com/sisimi/p/7804138.htmlluminous版本的ceph新增了一个功能crush class,这个功能又可以称为磁盘智能分组。因为这个功能就是根据磁盘类型自动的进行属性的关联,然后进行分类。无需手动修改crushmap,极大的减少了人为的操作。以前的操作有多麻烦可以看看:ceph crushmapceph中的每个osd设备都可以...

2018-10-23 21:09:31 787

转载 ceph crush device classes(luminous)

转自https://ceph.com/community/new-luminous-crush-device-classes/New in Luminous: CRUSH device classesThe flexibility of the CRUSH map in controlling data placement in Ceph is one of the system’s grea...

2018-10-23 20:57:24 423

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除