云平台维护
云平台硬件和软件相关问题及解决方案
半卷书生
2015年毕业于东北农业大学计算机科学与技术专业,从事私有云平台(VMware和openstack)和相关硬件(服务器、计算机和存储)运维,致力于云平台技术的研究和分享。
展开
-
[docker]笔记-镜像 管理
使用docker commit命令构建镜像,75f4bbfe53f8为源镜像名称,test_zip为新名称。⑤查看镜像详细信息 docker inspect xxxx。镜像的标签可以区分不通的版本,例如将mysql版本设置为2.1。1、镜像管理 docker search xxxx。②下载镜像 docker pull xxxx。④删除镜像 docker rmi xxxx。使用docker images 查看镜像。⑥构建镜像 docker commit。⑦镜像标签管理 docker tag。原创 2023-02-10 08:30:00 · 248 阅读 · 0 评论 -
[docker]笔记-基础配置
"registry-mirrors": ["https://XXXXX.mirror.aliyuncs.com"] xxxx替换为自己的加速器即可。①登陆阿里云,搜索“容器镜像服务”,选择“镜像工具”-->“镜像加速器”,会获得加速器地址,每个用户的加速器地址不一样。2、更换docker镜像网站,默认docker镜像网站是国外网站,下载镜像非常慢,需要更换为国内网站,以阿里云为例。②配置加速器进行加速,将地址写入/etc/docker/daemon.json文件中,如果不存在就新建文件。原创 2023-02-09 08:30:00 · 393 阅读 · 0 评论 -
[docker]学习笔记-安装
1、首先修改yum源为国内源(以阿里云为例),下载速度快,尤其时下载docker镜像的时候默认用国外源会非常慢。②下载阿里云yum源并移动到/etc/yum.repo目录下。①安装yum工具yum-utils。2、使用yum安装docker。至此,docker安装完成。①删除原有自带的yum源。③清除yum缓存并查看。原创 2023-02-08 10:52:51 · 337 阅读 · 0 评论 -
vmware Esxi上安装openEuler-22.03操作系统详细步骤
EulerOS安装在VMware之上现有文章大多使用workstation,我使用生产环境中的esxi进行安装测试原创 2022-10-25 11:18:40 · 4555 阅读 · 0 评论 -
更改操作系统密码导致vcenter访问出现503问题,已经如何正确更改vcenter操作系统密码
网上查询vpxd服务启动不了还有可能是证书到期,证书到期也会导致服务无法启动,但使用脚本和命令验证发现时间未到期,命令:在vcenter上运行:for store in $(/usr/lib/vmware-vmafd/bin/vecs-cli store list | grep -v TRUSTED_ROOT_CRLS);1、问题出现原因:vcenter 虚拟机cpu占用过高导致卡顿,想扩容cpu,需要关闭vcenter虚拟机,等扩容完启动的时候发现vcenter已启动,但页面访问出现503错误。原创 2022-09-21 11:20:42 · 2361 阅读 · 0 评论 -
ansible学习笔记【17】replace模块
path 要替换的文档regexp 查找匹配的内容replace 替换成什么内容backup 是否要备份例如:1、将node1中/opt/abc里面的xy替换成ab---- name: play01 hosts: node1 tasks: - name: m01 replace: path: /opt/abc regexp: xy replace: ab使用[ansible@control ansible]$ ansible-p原创 2022-07-08 14:57:03 · 700 阅读 · 0 评论 -
生产环境nsx-v升级为nsx-t的一些问题
背景:nsx-v将停止维护,要求用户升级为nsx-t,但是生产环境进行升级涉及影响很大,不得不慎之又慎,于是就一些疑问跟技术支持进行沟通。1、问题一:我想知道我目前环境是esxi6.7的,升级为nsx-t是否对esxi版本有要求答:nsx-v迁移nsx-t参考如下文档:https://blogs.vmware.com/networkvirtualization/2020/01/migration-from-vmware-nsx-v-to-t.html/https://www.vmware.com/con原创 2022-07-05 14:46:27 · 928 阅读 · 0 评论 -
ansible实战【1】:配置虚拟机基础环境
1、背景:公司研发新提交项目需求,需要分配21台虚拟机,需要额外挂载一块数据盘,更改模板的默认密码。经过分析发现,所有虚拟机的需求相同,正好最近在学习ansible,可以使用ansible进行管理配置。2、首先先将21台虚拟机分配好,并配置网络。3、在环境中找到一台跟这21台虚拟机能通的虚拟机,安装ansible[root@localhost ~]# yum install epel-release -y[root@localhost ~]# yum -y install ansible原创 2022-05-12 17:00:20 · 801 阅读 · 0 评论 -
使用zabbix监控VMware
VMware本身报警可以在vcenter中获取到,但无法通过微信或者短信通知,如果不是专门人负责也不好24小时一直查看,所以使用监控软件进行实时监控,很有必要。zabbix是一款开源监控软件,功能强大,内置很多的监控模板,还可以根据自己的需求定制模板,使用起来非常方便原创 2022-04-14 11:26:22 · 6094 阅读 · 0 评论 -
虚拟机(redhat8,centos8)添加逻辑卷
虚拟机(redhat8,centos8)添加逻辑卷原创 2022-03-29 10:05:55 · 2301 阅读 · 0 评论 -
redhat8(centos 8)重置开机重置root密码
一、针对忘记root密码进行重置的方法二、步骤:1、在开机界面按“e”进入编辑模式:2、修改部分参数3、按Ctrl-x进行启动进入救援模式4、逐条输入命令5、修改成功,登陆测试注意:在修改工程中touchu /.autorelabel 输入出差会导致redhat8(centos8)更改密码无法进入,出现以下报错:Stopping User Manager for UID 123卡在 starting Networking Manager这时需要..原创 2022-03-25 15:45:11 · 2403 阅读 · 2 评论 -
问题描述:分布式防火墙能管控东西向的流量,是否对进入虚拟机的所有流量都能够管控,例如外部访问虚拟机的流量。因为我现在的防火墙默认策略是允许,我像知道如果我默认策略改成阻止,外部流量会不会阻止
问题描述:分布式防火墙能管控东西向的流量,是否对进入虚拟机的所有流量都能够管控,例如外部访问虚拟机的流量。因为我现在的防火墙默认策略是允许,我像知道如果我默认策略改成阻止,外部流量会不会阻止技术回复:如电话沟通,分布式防火墙会管控虚拟机之间的通信和虚拟机与物理层面的通信,需在防火墙规则策略中对应流量进行设置。防火墙规则是在每个虚拟机的 vNIC 中实施的。在流量即将离开虚拟机并进入虚拟交换机(输出)时,将在虚拟机的 vNIC 中进行流量检查。在流量即将离开交换机但在进入虚拟机(输入)之前,也会在 vNI原创 2022-03-23 10:41:04 · 1315 阅读 · 0 评论 -
故障现象:整个网段的地址可以ping通,后续地址并没有使用;
故障现象:整个188网段的地址可以ping通,后续地址并没有使用;排查抓包发现是A10负载均衡的网口地址对所有ARP请求做了应答,最后发现是负载均衡配置的时候虚拟服务器中配置了掩码导致所有地址ping通,去掉掩码后恢复正常;...原创 2022-03-23 10:39:09 · 311 阅读 · 0 评论 -
NSX6.4.5 [问题描述]:上周六早上,生产环出现大量丢包,怀疑是edge故障,切换edge后,恢复
1、NSX6.4.5 [问题描述]:上周六早上,生产环出现大量丢包,怀疑是edge故障,切换edge后,恢复。此问题已出现过两会但都没查到原因需要彻查原因 周六早上6点半左右接到电话,综合网管出现智能审核和移动点播出现报警,网络连接丢失,远程登陆,发现同一个项目里有部分虚拟机能通,有部分虚拟机不通,第一反应是edge出现问题,检查了edge状态和所在主机状态都没有问题,登陆后台不能ping通的虚拟机,发现ping核心没问题,联系网络同事从核心ping虚拟机不通;最后还是决定切换edge,切换后恢...原创 2022-03-23 10:37:39 · 919 阅读 · 0 评论 -
虚拟机无法开机,提示文件系统特定的 OpenFile[file] 实施失败
问题描述:虚拟机无法开机,提示文件系统特定的 OpenFile[file] 实施失败。解决办法:虚拟机两个vmdk,一个是系统盘,一个是放数据的;数据盘跟系统盘不在一个存储里面;查看数据盘存储目录,看到母盘和000002快照盘,没有000001快照盘,告知客户理想状态就是000001快照盘数据已经整合回母盘了;查看000002快照盘被其他主机锁定,虚拟机从清单移除,重新注册到锁定主机后,成功开机。...原创 2022-03-25 15:45:31 · 9744 阅读 · 0 评论 -
问题描述: 虚拟机提示“虚拟机需要整合”状态,需要整合虚拟磁盘
问题描述: 虚拟机提示“虚拟机需要整合”状态,需要整合虚拟磁盘解决办法:问题实际是由于快照任务调度后,备份端没有正常进行快照删除和整合导致,查看备份软件是否仍挂载磁盘,如果挂载就先卸载掉,然后进行磁盘整合。...原创 2022-03-22 14:48:48 · 10686 阅读 · 5 评论 -
18:22:28 2020/12/16 故障--alarm.VsphereUiHealthAlarm - 事件: 状态更改 (9732139)摘要: vsphere-ui 状态已从 green 更改
问题描述:18:22:28 2020/12/16 故障--alarm.VsphereUiHealthAlarm - 事件: 状态更改 (9732139)摘要: vsphere-ui 状态已从 green 更改为 yellow问题解决:【解决方案】vsphere-client 状态不断由绿色变为黄色时,请手动更改 vSphere Web Client 服务器的最大堆大小以临时解决该问题。1.手动更改 vSphere Web Client 服务器的最大堆大小:在 Windows 中找到 C:\Pr原创 2022-03-21 17:53:21 · 1789 阅读 · 0 评论 -
网络流量顶峰到达了1000M,单位是KBPS,我的网卡是万兆网卡,我想知道这两个之间的换算关系是什么
问题描述:我看到监控中我的网络流量顶峰到达了1000M,单位是KBPS,我的网卡是万兆网卡,我想知道这两个之间的换算关系是什么问题解决:①设备的的数据交换能力,也叫“带宽”,单位是Mbps(兆位/秒) ②1MByte/秒=8Mbps=8192Kbps;1000MByte/秒=8000Mbps=8192000Kbps;千兆网卡的传输速率是1000Mbps,万兆网卡的传输速率是10Gbps,它是千兆光纤网 卡传输速率的十倍。对应关系1000Mbps=125MBps...原创 2022-03-21 17:51:01 · 3279 阅读 · 0 评论 -
集群中cpu和内存利用率的最佳实践是多少
问题描述:我想了解一下集群中cpu和内存利用率的最佳实践是多少问题处理:使用率在80%以下可以认为是健康的状态,如果HA迁移环境较为复杂,我们可以以70%为分界线。原创 2022-03-21 17:49:26 · 611 阅读 · 0 评论 -
有一台业务虚拟机发生重启,查看vcenter日志发现该虚拟机有告警,请排查是什么原因导致的该虚拟机重启
问题解决:①后台查询日志,回复Veeam备份软件做快照之后开始做备份,虚拟机会放一个锁在这个快照文档上,但是隔了两分钟之后发现 锁丢失了,虚拟机无法在对这个快照做操作,所以自己重启了。 ②锁丢失的原因是当时ISCSI通信有问题,导致主机无法访问到存储数据卷 ③通过分析网卡驱动版本发现这款网卡有一个已知的问题就是大流量的时候可能会发生网络不稳定的现象,解决方法是升级到3.11.7.0以上的版本,需要升级4、解决结果,根据多方讨论,确定是网卡驱动存在问题,在备份时流量大导致出现存...原创 2022-03-18 10:15:40 · 1409 阅读 · 0 评论 -
有主机出现报警“刷新硬件 IPMI 系统事件日志”出现常规性系统错误“Retrleve IPMI DEL request to host failed,事件中有很多相关报警
1、问题:vc上有报警,查询硬件iDRAC无相关报警2、解决方案清空 IPMI SEL 日志,请执行以下操作:通过 SSH 连接到 ESXi 主机。运行以下命令:localcli hardware ipmi sel clear/etc/init.d/sfcbd-watchdog restart之后:单击硬件状态选项卡。单击“视图”下的系统事件日志。单击重置事件日志。红色警示将从系统事件日志中移除。单击重置传感器来重置主机传感器。观察是否告警清除。如果告警依然存在,请参考如下方原创 2022-03-18 10:12:48 · 6031 阅读 · 0 评论 -
CPU开启热添加,添加的vcpu是哪里的,原理是什么
1)CPU开启热添加,添加的vcpu是哪里的,原理是什么; 2)我的一台主机有28个物理核心,最大可分配的vcpu是56是怎么对应的; 3)当我分配的vcpu数,少于物理核心的时候是每个cpu占一个核心吗 4)超分的时候vcpu是如何争用的 5)vcpu是分配好以后就固定在分配的物理核心上了吗,还是动态调整的 6)我现在分配的vcpu数已经达到了物理核心的3倍,利用率却不足10%,这种情况下还可以再分吗 以及其他vcpu类的问题------开技术委员会就vcpu是否可以超分进行讨论3、技术方案:从虚拟机的原创 2022-03-18 10:09:10 · 1300 阅读 · 0 评论 -
问题描述:vcenter上数据存储的事件中有大量的警告,还有偶尔的报错,存储设备naa...的路径冗余已降级,路径。。已关闭,受影响的数据存储 与存储设备。。。连接丢失,路径。。已断开,受影响的存储
处理过程:日志分析发现授权出错,然后排查发现cpu授权已经使用完毕,但是报错的111上没有授权,然后排查新增的16台机器中,是存在一个使用了之前的授权;将授权更换完毕后重新开的case关联之前的case;收集111日志发给技术支持,技术回复是111上存储锁定了,解除锁定观察。发现111没有在出现,116,126上又有发生,而且在收集101日志的时候,101也出现了相同的情况,获得日志的方法:vm-support,然后找存放路径。最新进展:技术分析工单,提出原因:原因:iSCSI 适配器配置为使用巨型帧且原创 2022-03-18 10:06:08 · 1232 阅读 · 0 评论 -
主机事件报警日志丢失问题
问题描述:观察主机事件的时候发现大量报警事件 :2737149“在 Datacenter 中的 10.23.196.129 上检测到以下问题: vmsyslog logger 10.23.196.13:514 lost 1 log messages (202v0-02-17T06:20:27.086Z cpu23:2097814)”触发了 10.23.196.129 上的警报“主机错误”;事件日志报警:向存储中记录日志失败。日志将不再本地存储在该主机上。解决方法:收集主机日志,分析后发现,日志是存储在集原创 2022-03-17 14:22:03 · 617 阅读 · 0 评论 -
vCenter账号权限问题
账号权限管理原创 2022-03-17 11:42:12 · 1661 阅读 · 0 评论