openstack
文章平均质量分 62
运维Enter
linux运维工程师,热爱开源技术。so fun so linux
展开
-
rabbitmq一个节点无法加入集群的排查-(inconsistent_cluster)
原环境是三个节点组成的rabbitmq的mirror集群,node-1节点因为服务器重启,无法自动加入集群,后来在node-2节点做了rabbitmqctl forget_cluster_node rabbit@node-1的操作,将node-1节点移除出了集群,打算将node-1做reset之后在手工加入集群。做了此操作后,在node-2和node-3节点查看集群状态均正常,但是启动node-1原创 2017-09-22 17:42:08 · 6601 阅读 · 1 评论 -
虚拟机重启错误,libvirtError:internal error:process exited while connecting to monitor
客户云环境一台虚拟机,反馈重启不成功。经了解,客户环境使用的后端为ceph,故障虚拟机挂载一块云硬盘。 收集客户的nova-compute日志,发现报错如下: libvirtError:internal error:process exited while connecting to monitor如上图,日志显示云硬盘无法连接到ceph-mon,排查虚...原创 2018-10-28 23:46:49 · 12557 阅读 · 0 评论 -
rabbitmqadmin的配置文件问题
一个rabbitmq集群,通过rabbitmq-plugins enable rabbitmq_management启用了管理插件,下载了rabbitmqadmin命令文件,但是执行rabbitmqadmin list queues命令时报错: *** Access refused: /api/queues?columns=name,messages ...原创 2018-10-18 22:00:07 · 3403 阅读 · 0 评论 -
一次虚拟机热迁移失败处理,使用nova live-migration-force-complete强制暂停下虚拟机
客户反馈2台虚拟机热迁移失败,检查源计算节点的nova-compute日志,均发现live migration stuck xxx sec的错误信息。虚拟机热迁移的过程,在源节点和目标节点会有同步虚拟机内存的操作,查看stuck日志之前的输出,问题memory 基本0% remaining,问题应该在最后一刻同步内存。于是尝试使用nova live-migrat...原创 2018-10-02 22:12:03 · 4848 阅读 · 0 评论 -
ceph pg卡在unclean和backfill_toofull
一个环境,很多osd处于nearfull状态,在给osd做reweight的时候,发现有2个pg一直卡在unclean和backfill_toofull状态。执行ceph health detail如上图,我们发现,卡住的一个pg 为2.689,执行ceph pg map 2.689,发现此pg up的三个osd为 32,153,66,而这三个osd中,osd.15...原创 2018-08-30 15:09:12 · 4228 阅读 · 0 评论 -
multipath路径残留导致虚拟机无法重启
客户反馈一台虚拟机重启后虚拟机状态显示为错误。检查云平台各个组件服务,未发现异常后,首先尝试重置虚拟机状态,然后硬重启看下 一段时间后,虚拟机状态仍然为error。检查虚拟机所在计算节点的nova-compute日志,发现如下错误日志显示,终止虚拟机的qemu-kvm进程时失败(Failed to terminate process 2216397),有资源占用未释放(device or reso...原创 2018-06-11 23:26:06 · 6601 阅读 · 0 评论 -
multipath配置错误导致的云平台虚拟机挂载云硬盘失败
客户反馈云平台商业存储类型的云硬盘无法挂载上(cinder通过FC协议对接),但是ceph类型云硬盘使用正常. 登录打开cinder的debug模式,在volume日志没有显示任何错误信息,日志显示cinder有删除映射关系的操作. 继续查看挂载虚拟机的所在计算节点的nova-compute日志,发现如下错误. Failed to execute command multipath...原创 2018-06-11 17:44:45 · 2803 阅读 · 0 评论 -
nova hypervisor-list无法执行,其他api均正常
平台中有一些计算节点下架,通过nova service-delete ID将其删除后,admin用户登录dashboard,提示"Can't get hareware usage",之后迅速退出登录,后台执行nova hypervisor-list命令后,无法执行成功,提示如下报错: ERROR (ClientException): Unexpected API Error原创 2018-03-20 15:33:06 · 2425 阅读 · 0 评论 -
/etc/sudoers配置错误导致的nova-api等异常
客户反馈dashboard上面 使用异常:问题一:第一次登陆系统后点击计算资源下的云主机,显示没数据,刷新后显示正常问题二:不定期出现的问题,点击安全组报“无法获取配额”,而且系统一直转圈,无法显示数据。关掉报错,重新刷新后正常显示数据问题三:点击虚机,然后弹出报错“无法获取云主机控制台”,关掉然后重新点击虚机后显示正常问题分析:1、 首原创 2018-03-03 20:27:24 · 695 阅读 · 0 评论 -
修改ssh默认端口导致的虚拟机resize失败
客户反馈虚拟机resize失败,登录虚拟机所在的计算节点,查看nova-compute日志,发现ssh有关的报错。1、获取resize失败的虚拟机的uuid 2、查看虚拟机所在的节点nova-compute日志,根据虚拟机uuid搜索,发现大量ssh报错根据报错内容,是resize过程中,虚拟机所在的节点ssh到其他计算节点创建虚拟机目录,使用默认的22端口连接原创 2018-03-01 19:04:22 · 469 阅读 · 0 评论 -
nova的服务心跳机制和服务状态监控机制的实现
转载自:http://blog.csdn.net/gzhouc/article/details/65948152Openstack中的服务是分布式部署,因此,各个服务的启停状态,决定了此系统的可用性。我们可以通过openstack提供的接口来查看服务的运行状态,比如:nova service的相关配置Nova相关的配置项都nova/conf这个目录下,如果我们相查看service相关的配置项,可以...转载 2018-02-10 12:46:13 · 988 阅读 · 0 评论 -
时间不同步导致的nova,cinder服务一会up一会down的来回跳跃
客户反馈无法创建虚拟机(openstack版本为Juno),登录控制节点,发现nova 和cinder服务有为down的,检查down节点的nova和cinder日志,未发现任何日志信息显示error,且日志显示nova和cinder都在正常更新状态,创建虚拟机的请求,nova-schedule未做任何调度,创建的虚拟机状态直接变为error。 多检查几次...原创 2018-02-10 12:37:02 · 1268 阅读 · 0 评论 -
检测openstack云平台是否存在脑裂的虚拟机,加入zabbix告警
在openstack运维中,有时会遇到虚拟机热迁移,evacuate等操作中,发生虚拟机脑裂的情况,即同一个虚拟机同时在两个hypervisor上面运行,在使用ceph等共享存储时,十有八九会造成虚拟机文件系统损伤,运气好的情况下能修复文件系统错误,重则数据混乱,虚拟机无法启动.为此,我写了一个Python脚本,用于检测openstack的hypervisor(KVM)是否存...原创 2017-10-11 21:03:58 · 1586 阅读 · 0 评论 -
也谈OpenStack中的虚拟机HA
转载自 http://blog.csdn.net/shatty/article/details/50999677转载 2017-09-25 17:23:05 · 941 阅读 · 0 评论 -
修改云主机快照方式为live snapshot
客户反馈虚拟机做快照时一直无法连接(后端存储使用的为ceph),远程测试发现做快照时无法ping通,vnc无法登录.如上图,在做快照期间,ping虚拟机的ip中间会出现"请求超时"如上图,快照期间,vnc也无法登录了.在虚拟机所在的计算节点,用watch -n1 "virsh list --all",发现虚拟机在快照期间的状态为shutoff.观...原创 2018-10-31 00:01:57 · 723 阅读 · 0 评论