QNX-HAM机制研究笔记

背景

高可用需求,在系统故障时减小故障的影响,尽量保证系统正常运行。

内容

是什么

HAM(High Availability Manager)是一个“智能看门狗”——一个高弹性的管理进程,它可以在系统服务或进程失败或不再响应时监视您的系统并执行多级恢复。作为一个自我监控的管理者,HAM对内部故障具有弹性。不管出于什么原因,如果HAM本身被异常地停止,它可以通过移交给一个称为“监护人”的镜像进程,立即并完全地重建自己的状态。
简单说,可以用守护机制做进程保活的。

术语

术语描述
entry实体,可理解为进程
condition条件,类似进程死亡这种时候
action动作,类似重新启动等具体行为

功能介绍

进程自我监控
进程可以自已选择监测的开始和结束时间,选择相关的触发条件和执行动作,类似“当我挂掉时,做什么事情”。
例:由于APP不是常驻内存,在执行一些可能CRASH的代码时,可请求HAM,当我出现异常,重启我。

监控外部应用
进程可以监控外部进程的状态,类似“当B挂掉了,做什么事情”。
例:Audio守护进程监控到Audio进程挂掉后,重启Audio。

监控全局
系统中一种虚拟进程,可以监控所有被监控的进程,类似“当任意进程挂掉,做什么事情”。
例:注册行为,在任意进程挂掉后,写日志。

QNX Neutrino架构的三个关键因素直接促成了内在 HA:

  • 微内核,单个内核逻辑更少,部分重启不太影响全局
  • POSIX 进程模型,单独的内存地址,可创建动态进程
  • 消息传递,标准消息传递,有利于任务解耦、任务简化和服务分发。

原理: HAM启动时会有一个Guardian进程,并且将状态数据保存在共享内存,若HAM进程挂掉,则Guardian进程会取代HAM进程。

是谁启动的进程

  • QNX启动HAM进程,HAM管理需要监控的进程。
  • 可以直接执行ham以启动ham进程。
  • 不需要使用ham时可通过hamctrl -stop 停止ham,也可以调用ham_stop()

可以接收哪些状态

ConditionDescription
CONDDEATH进程中止。
CONDABNORMALDEATH进程异常中止。
CONDDETACH断开HAM。
CONDATTACH连接上HAM。
CONDHBEATMISSEDHIGH进程失去心跳达最大次数。
CONDHBEATMISSEDLOW进程失去心跳达最小次数。
CONDRESTART进程重新启动。
CONDRAISE
CONDSTATE进程状态发生变化。
CONDANY任何condition改变。

可执行哪些动作

ActionDescription
ham_action_restart()重启。
ham_action_execute()执行一段脚本。
ham_action_notify_pulse()发送PULSE事件。
ham_action_notify_signal()发送系统信号事件。
ham_action_notify_pulse_node()
ham_action_notify_signal_node()
ham_action_waitfor()等待。
ham_action_heartbeat_healthy()
ham_action_log()输出日志。

怎么用

译自QXN 官方demo

#include <stdio.h>
#include <string.h>
#include <stdlib.h>
#include <thread>
#include <chrono>
#include <iostream>
#include <process.h>
#ifdef QNX
#include <ha/ham.h>
#endid

int main(int argc, char** argv)
{
#ifdef QNX
    printf("HAM Prepar~\n");
    int status;
    char* inetdpath;
    ham_entity_t* ehdl;
    ham_condition_t* chdl;
    ham_action_t* ahdl;
    int inetdpid;
	// 新启一个进程
    inetdpath = strdup("/usr/bin/picherdemo/helloworld -D");
	// 连接HAM
    ham_connect(0);
	// 将进程交给HAM监控
    ehdl = ham_attach("inetd", ND_LOCAL_NODE, inetdpid, inetdpath, 0);
    if (ehdl != NULL)
    {
		//添加条件,当进程“death”时
        chdl = ham_condition(ehdl, CONDDEATH, "death", HREARMAFTERRESTART);
        if (chdl != NULL) {
			//添加动作,重启进程
            ahdl = ham_action_restart(chdl, "restart", inetdpath,
                HREARMAFTERRESTART);
            if (ahdl == NULL)
                printf("add action failed\n");
        }
        else
            printf("add condition failed\n");
    }
    else
        printf("add entity failed\n");
	//关闭与HAM的连接
    ham_disconnect(0);
#endif // QNX
    while (true) {
        printf("Process id: %d\n ", getpid());
        std::cout << "Thread id:\n"<< std::this_thread::get_id();
        std::this_thread::sleep_for(std::chrono::seconds(5));
    }

	return 0;
}

小结

HAM机制是QNX原生机制,通过监控进程状态做到进程的重启。

参考

QNX-Hight Available Framework Guide
posix 线程
QNX 系统 HAM 应用分析及实现

  • 0
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值