问题1:宿主机电源断电后,云主机不能故障迁移
问题描述:
模拟计算节点宕机后,云主机不能故障迁移。
问题分析:
宿主机断电的这种场景有一定的几率会触发ipmi-Fence关机,另一种情况是consul检测到host已经powe-off,pass了fence,Fence host需要通过ipmi,而这个操作需要Dell r740 ipmi硬件支持lan接口,
而具体触发impi-fence还是pass fence,这个和检测机制有关
解决方法:
登录dell r740 Ipmi控制台,开启LAN后支持。
问题2:cpu特性问题导致windows 2016云主机不能启动
问题描述:
windows 2016系统启动会一直HANG在logo界面,无法进入系统。
问题分析:
其它镜像创建的云主机正常,唯有2016不行,判断是因为部分cpu特性没有设置引起
解决方法:
编辑计算节【libvirt】设置如下参数
cpu_model = kvm64
cpu_featureset=tm2,est,smx,vmx,pbe,acpi,vme,pdpe1gb,rdtscp,pclmuldq,ssse3,fma,pcid,dca,sse4.1,sse4.2,x2apic,movbe,popcnt,aes,xsave,avx,f16c,rdrand,bmi1,avx2,smep,bmi2,lahf_lm,nx
重启计算节点nova-compute服务后解决
问题3:查看云盘信息提示qos错误
问题描述:
查看创建好的云盘信息时提示qos错误
问题分析:
登录后台查看/var/log/cinder/volume.log日志有qos关键字
解决方法:
将cinder type的is_predefined属性调整为false后解决。
问题4:mellanox 网卡驱动问题导致 vlan ip 不通
问题描述:
对应物理网口设置trunk,native vlan 2,允许3和4通信)
操作系统层设置了一个ip(走native vlan 2),又设置了一个子接口vlan ip (走vlan 3)。
设置完成后nativevlan 2 ping网关正常,发现3不能通讯。
问题分析:
确认网卡型号,考虑升级驱动。
解决方法:
下载mellanox驱动,用ipmi 虚拟光驱挂载至系统
安装依赖包
yum install -yperl lsof libxml2-python pciutils
解压驱动包
chmod +x install
./install
重启后vlan 3 ip通讯正常。
问题5:consul tenant 错误日志导致根目录空间不足,服务异常
问题描述:
控制节点1和3,根目录爆满,无法写入。
问题分析:
排查到/var/log/consul日志占用430GB引起的。
清空/var/log/consul/tenant.log日志后,根目录空间充足。
查看/var/log/consul/tenant.log提示ERR.consu.rpc等关键字报错
调整/etc/security/limit.conf,注释一下参数后,此类告警日志消失
# End of file
#* soft memlock unlimited
#* hard memlock unlimited
#* soft nofile 262144
#* hard nofile 262144
#* soft nproc 10240
#* hard nproc 10240
# BEGIN ANSIBLE MANAGED BLOCK
* hard nofile 65535
* soft nofile 65535
# END ANSIBLE MANAGED BLOCK
查看/var/log/consul/tenan