嵌入式软件自举

说明

  • 嵌入式软件自举即嵌入式软件依靠自身保障嵌入式产品的正常运行,不同于普通PC程序,大部分嵌入式软件需要自动启动并且长时间稳定的运行。
  • 自举功能包括:自启动,自维持,自恢复等。

自启动

  • 嵌入式程序需要实现自动启动,Linux系统启动后会自动加载一些配置和执行一些脚本,将程序执行加入即可,例如:
  1. /etc/inittab,在该文件中又加载了rc.sysinit和rc.d等文件。
  2. systemd init中创建一个自启动service。

自维持

  • 待续

自恢复

  • 对于需要长时间运行的电子产品,例如:安防监控等,如果设备出问题后不能自动恢复,可能会出现以下情况:
  1. 设备操作无反应,用户以为设备坏掉了,并不知道需要断电重启,对产品质量怀疑。
  2. 程序崩溃后所有功能中断,有些重要并且需要长时间稳定运行的功能无法延续,例如:定时闹钟等。

程序问题是无法避免的

  • 程序问题乃至崩溃是无法避免的,一些因素并不是个人可以避免的,例如:
  1. 程序测试不充分,有bug导致程序崩溃,可以降低概率,但是无法彻底避免。
  2. 小内存设备中程序长时间运行,内存碎片积累以及其它问题导致程序崩溃。
  • 为了避免设备无法使用,通常需要实现出问题后软件自动恢复功能。

处理方法

  • 实现程序运行状态的监控,当程序出问题时,进行恢复操作,常见实现如下:
  1. 写个监控程序,判断程序是否运行正常,当程序运行不正常则重启程序或者设备。
  2. 使用看门狗,有软件看门狗,也有硬件看门狗。

比较

  • 方案1 监控脚本和程序可靠性差点。
  1. 处理载体为应用程序,代码实现可靠性和稳定性相对于内核和硬件实现差些。
  2. 在资源不足时,主程序和监控程序可能先后被系统杀死,导致监控程序没起作用。
  3. 异常情况下,系统看起来像死机,应用层无法做任何处理,这种情况下内核本身可能并没有停止工作,只是不提供服务了,导致监控程序没起作用。
  • 方案1中重启对象有两个选项:程序和设备;对于内存碎片问题,重启程序是无用的,并且重启设备有助于重置软件环境,因此选择重启设备会好点。

看门狗(watchdog)

硬件看门狗
  • 对稳定性要求较高的产品,可能会选择硬件看门狗,通过硬件芯片来实现。
软件看门狗
  • Linux内核自带看门狗模块,原理类似于一个定时器,开启看门狗后需要不断喂狗,中断超时后会重启设备。
  • 软件看门狗驱动接口如下:
  1. wdt_open:打开设备,应用程序调用open时进入该函数。
  2. wdt_close :关闭设备,应用程序调用close时进入该函数
  3. wdt_write :写设备,若传入数据大小不为0则喂狗;应用程序调用write时进入该函数.
  4. wdt_ioctl :这个函数是最主要的,原型如下(driver\watchdog):
static long wdt_ioctl(struct file *file, unsigned int cmd, unsigned long arg)
{
    void __user *argp = (void __user *)arg;
    int __user *p = argp;
    int new_timeout;
    static const struct watchdog_info ident = {
        .options = WDIOF_KEEPALIVEPING | WDIOF_SETTIMEOUT |
                            WDIOF_MAGICCLOSE,
        .firmware_version = 1,
        .identity = "W83627HF WDT",
    };

    switch (cmd) {
    case WDIOC_GETSUPPORT:
        if (copy_to_user(argp, &ident, sizeof(ident)))
            return -EFAULT;
        break;
    case WDIOC_GETSTATUS:
    case WDIOC_GETBOOTSTATUS:
        return put_user(0, p);
    case WDIOC_SETOPTIONS:
    {
        int options, retval = -EINVAL;

        if (get_user(options, p))
            return -EFAULT;
        if (options & WDIOS_DISABLECARD) {
            wdt_disable();
            retval = 0;
        }
        if (options & WDIOS_ENABLECARD) {
            wdt_ping();
            retval = 0;
        }
        return retval;
    }
    case WDIOC_KEEPALIVE:
        wdt_ping();
        break;
    case WDIOC_SETTIMEOUT:
        if (get_user(new_timeout, p))
            return -EFAULT;
        if (wdt_set_heartbeat(new_timeout))
            return -EINVAL;
        wdt_ping();
        /* Fall */
    case WDIOC_GETTIMEOUT:
        return put_user(timeout, p);
    default:
        return -ENOTTY;
    }
    return 0;
}
其主要的几个参数如下:
WDIOC_KEEPALIVE :喂狗,同write函数功能类似
WDIOC_SETTIMEOUT :设置超时值
WDIOC_GETTIMEOUT :获取超时值
WDIOC_SETOPTIONS:设置看门狗状态,开启(WDIOS_ENABLECARD)或关闭(WDIOS_DISABLECARD)
  • 应用层使用
  1. open设备(/dev/watchdog)
fd = open("/dev/watchdog", O_RDWR);
  1. 开启/停止 watchdog
ioctl(fd, WDIOC_SETOPTIONS, WDIOS_ENABLECARD); //开启
ioctl(fd, WDIOC_SETOPTIONS, WDIOS_DISABLECARD) //停止
  • 内核配置中有一项 WATCHDOG_NOWAYOUT,表示Disable watchdog shutdown on close,如果配置打开,停止操作是不生效的。
  1. 设置喂食超时时长
int timeout = 60;
ioctl(fd, WDIOC_SETTIMEOUT, &timeout);
  1. 喂狗
* 循环执行
方式1:write
write(fd, &arg, sizeof(arg));//arg必须是非0数,否则喂狗失败
方式2:ioctl
ioctl(fd, WDIOC_KEEPALIVE, NULL);
  1. 关闭设备节点
close(fd);

问题

  1. 频繁重启
  • 使用看门狗,程序崩溃后会设备会重启,如果程序在初始化过程中必然崩溃,设备就会出现循环重启现象,程序崩溃太快,用户甚至无法操作和中断。
  • 大部分的启动过程中崩溃问题,测试时能发现和解决,但是也可能是用户升级后用户配置文件,新旧版本未兼容好导致(之前产品中有遇到过)。
  • 解决方案:恢复出厂设置(Reset操作);如果时间空闲,可以由用户通过按键或者其它物理方式进行reset操作,清除所有数据;如果重启过快,用户无法操作,程序中需要捕获SIGSEGV等信号,通过系统启动时间或者其它手段判断设备是否频繁重启,以做规避。
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值