本文链接：https://blog.csdn.net/shayuchaor/article/details/101551199

Supervisor监控多进程任务

上回书说到，Supervisor进程监控之役，在下先取sendmail，再克Superlance，兵峰所指，所向披靡。却不知Supervisor大本营暗藏杀招，不输出非直接子进程的异常信息，一举扭转战局，我军兵败如山倒，最终劳民伤财一无所获。这一回，我军卷土重来，高举python大旗，采用斩首行动，直指问题根源。

问题分析

既然决定要自己写监控，那么首先要做的，就是找到异常事件的表现。只有知道了怎样的事件属于异常，才能对其进行监控。

再次召唤上回的图

script进程挂掉之后，Supervisor会尝试重启，并启动一个奇怪的无意义进程，这是上一回已经说清楚的。正常情况下，task进程启动后，会启动若干个script子进程，这些子进程应该在启动之后就不生不灭、不增不减了。如此，就很好监控了，每分钟获取当前全部script进程的pid，和上一分钟保存的作对比，发生变动，则进行邮件报警，然后重启对应的task即可。

具体实现

python做这类运维工作还是很方便的，先介绍一下psutil，psutil相比os这些封装的更高级一点，如下代码所示：

import psutil

for proc in psutil.process_iter():
    try:
        pinfo = proc.as_dict(attrs=['pid', 'name'])
    except psutil.NoSuchProcess:
        pass
    else:
        print(pinfo)

psutil的优点就是使用更简单方便，代码也很简洁，缺点么。。。丫的name全叫python，根本分不清谁是谁。

···
{'pid': 20049, 'name': 'python3'}
{'pid': 20052, 'name': 'python3'}
{'pid': 20053, 'name': 'python3'}
{'pid': 20056, 'name': 'python3'}
{'pid': 20063, 'name': 'python3'}
{'pid': 20076, 'name': 'python3'}
{'pid': 20079, 'name': 'python3'}
{'pid': 20081, 'name': 'python3'}
{'pid': 20082, 'name': 'python3'}
{'pid': 20086, 'name': 'python3'}
{'pid': 20087, 'name': 'python3'}
{'pid': 20090, 'name': 'python3'}
{'pid': 20092, 'name': 'python3'}
{'pid': 20103, 'name': 'python3'}
{'pid': 20106, 'name': 'python3'}
{'pid': 20116, 'name': 'python3'}
···

虽然没用psutil，但还是介绍一下，库多不压身。

我最后采用的还是原始的os，代码如下

lines = os.popen("ps -ef|grep python3").readlines()

这样可以获得在服务器上ps -ef的全部输出，也就是获得一行完整的进程名。但是这行得到的一行line是没有像psutil那样处理好的，只是一串空格隔开的纯文本而已，要从中获取pid、ppid、进程全名，还得对字符串简单处理一下：

for line in lines:
    # 根据空格分隔各元素，并去除空字符
    items = line.split(" ")
    items = [i for i in items if i]
    # 使用切片操作获取进程全名
    try:
        f_idx = items.index(feature_str)
        process_name = " ".join(items[f_idx:]).strip()
    except Exception as _e:
        logging.except(_e)
        continue
    # 构建元素
    element = {
        "name": process_name,
        "pid": items[1],
        "ppid": items[2]
    }

然后把这些存储着pid、name等信息的元素保存起来。其中，ppid等于supervisorpid的，就是task进程，ppid等于某个task进程的，就是属于这个task的script进程。一旦发现某个script进程的pid发生变动，就发送报警邮件。反正也贴了这么多代码了，再贡献一下发邮件的那个函数吧。

诶我又反悔了，不想贴了。

定时任务监控

这里的定时任务，是指类似于crontab管理的任务，到时间运行一下，运行完了就退出，等下次预订的时间再次运行。

定时任务进程也和script进程一样，不直属于supervisor管理，所以挂了也没法正常重启，甚至会被错误的重启后，永远的挂在线上，而本次运行没有结束，就再也没有下一次定时运行了。

这类任务就和刚才那种不生不灭、不增不减的script进程很不同的，它们的pid变了或没了都是很正常的事情，并不能用上面的方法监控，那就需要动一点灵活的脑筋了。

我灵光一闪，想到了用lsof -p这个指令。

首先，强制每个任务进程必须写日志，也就是说，正常运行的时候能通过lsof -p命令找到它正在写的日志文件。一个正常运行的进程，无论什么时候lsof -p，都能看到它正在交互的log文件，而错误重启的进程，是一个僵尸状态，不会读写任何log文件。那么，得到要监控的pid后，用lsof -p看它有没有在写日志，我们已经强制所有进程写日志了，谁不在写谁就有问题，谁有问题就重启谁，问题解决。

代码大概这个样子

def get_related_log(_pid: str) -> None:
    """
    获取进程正在读写的日志文件
    :param _pid: 进程pid
    :return: None
    """
    # 获取进程的list openfiles
    _lines = os.popen(f"lsof -p '{_pid}'").readlines()
    # 由于lsof执行比较慢，可能进程已经终止，识别这类情况
    if not _lines:
        logging.info(f"进程{_pid}或已终止")
        return
    has_log = False
    # 在openfiles中寻找log文件
    for _l in _lines:
        if "log" in _l:
            logging.info(_l)
            has_log = True
    # 未找到log文件，报警
    if not has_log:
        send_email()