Yarn任务监控--dingding告警

超级迅猛龙

于 2024-06-24 14:47:45 发布

阅读量146

点赞数 1

文章标签： python 前端开发语言大数据 hadoop

本文链接：https://blog.csdn.net/cz124560/article/details/139926108

版权

【目的】：定期一小时监控Yarn上的任务并且如果失败任务有新增就告警推送@所有人。

【方法】：采用Yarn api方式每隔一个小时进行一次采集并把状态保留下来推送出去

并把当前失败任务数和上一个小时任务失败数做对比如果大于上一个小时任务失败数就告警出来@所有人

【效果图】

话不多说直接上代码：

首先上yarn api采集并保存的代码：

       url_hdfs_namenode = f"http://{ip}/api/v2/instance/product/Hadoop/service/yarn_resourcemanager"

        response_yarn_list = session.get(url=url_hdfs_namenode).json()['data']['list']

        try:

            for yarn in response_yarn_list:

                if yarn['status'] == 'running':

                    yarn_data = session.get(f"http://{yarn['ip']}:18088/ws/v1/cluster/metrics",

                                            verify=False).json()['clusterMetrics']

                    print('yarn', '   ', 'resource_manager', '   ', '提交的任务数目', '   ', yarn['ip'], '   ',

                          yarn_data['appsSubmitted'])

                    print('yarn', '   ', 'resource_manager', '   ', '完成的任务数目', '   ', yarn['ip'], '   ',

                          yarn_data['appsCompleted'])

                    print('yarn', '   ', 'resource_manager', '   ', '挂起的任务数目', '   ', yarn['ip'], '   ',

                          yarn_data['appsPending'])

                    print('yarn', '   ', 'resource_manager', '   ', '运行的任务数目', '   ', yarn['ip'], '   ',

                          yarn_data['appsRunning'])

                    print('yarn', '   ', 'resource_manager', '   ', '失败的任务数目', '   ', yarn['ip'], '   ',

                          yarn_data['appsFailed'])

                    print('yarn', '   ', 'resource_manager', '   ', '集群总内存大小(GB)', '   ', yarn['ip'], '   ',

                          yarn_data['totalMB'] / 1024)

                    print('yarn', '   ', 'resource_manager', '   ', '集群已用内存大小(GB)', '   ', yarn['ip'], '   ',

                          yarn_data['allocatedMB'] / 1024)

                    print('yarn', '   ', 'resource_manager', '   ', '集群可用内存大小(GB)', '   ', yarn['ip'], '   ',

                          yarn_data['availableMB'] / 1024)

                    print('yarn', '   ', 'resource_manager', '   ', '集群总虚拟核数', '   ', yarn['ip'], '   ',

                          yarn_data['totalVirtualCores'])

                    print('yarn', '   ', 'resource_manager', '   ', '集群已分配虚拟核数', '   ', yarn['ip'], '   ',

                          yarn_data['allocatedVirtualCores'])

                    print('yarn', '   ', 'resource_manager', '   ', '集群可用虚拟核数', '   ', yarn['ip'], '   ',

                          yarn_data['availableVirtualCores'])





                    csv.writer(f).writerow(

                        ['yarn', 'resource_manager', '提交的任务数目', yarn['ip'], yarn_data['appsSubmitted']])

                    csv.writer(f).writerow(

                        ['yarn', 'resource_manager', '完成的任务数目', yarn['ip'], yarn_data['appsCompleted']])

                    csv.writer(f).writerow(

                        ['yarn', 'resource_manager', '挂起的任务数目', yarn['ip'], yarn_data['appsPending']])

                    csv.writer(f).writerow(

                        ['yarn', 'resource_manager', '运行的任务数目', yarn['ip'], yarn_data['appsRunning']])

                    csv.writer(f).writerow(['yarn', 'resource_manager', '失败的任务数目', yarn['ip'], yarn_data['appsFailed']])

                    csv.writer(f).writerow(

                        ['yarn', 'resource_manager', '集群总内存大小(GB)', yarn['ip'], yarn_data['totalMB'] / 1024])

                    csv.writer(f).writerow(

                        ['yarn', 'resource_manager', '集群已用内存大小(GB)', yarn['ip'], yarn_data['allocatedMB'] / 1024])

                    csv.writer(f).writerow(

                        ['yarn', 'resource_manager', '集群可用内存大小(GB)', yarn['ip'], yarn_data['availableMB'] / 1024])

                    csv.writer(f).writerow(

                        ['yarn', 'resource_manager', '集群总虚拟核数', yarn['ip'], yarn_data['totalVirtualCores']])

                    csv.writer(f).writerow(

                        ['yarn', 'resource_manager', '集群已分配虚拟核数', yarn['ip'], yarn_data['allocatedVirtualCores']])

                    csv.writer(f).writerow(

                        ['yarn', 'resource_manager', '集群可用虚拟核数', yarn['ip'], yarn_data['availableVirtualCores']])





                break









        except Exception as e:

            print(e)

对比当前时间和上一次时间的任务情况

def filed_task_add():

    time_H = get_file_time_H()

    prev_hour = get_prev_hour_time_H()

    i = 0

    for filename in os.listdir('./yarn/'):

        # i = i+1

        # print(i)

        if time_H in filename:

            with open(os.path.join('./yarn/', filename), 'r') as f:

                for line in f:

                    if '失败的任务数目' in line:

                        failed_tasks_current = int(line.split(',')[-1])

                        print(f"当前失败的任务数：{failed_tasks_current}")

                        break





        elif prev_hour in filename:

            with open(os.path.join('./yarn/', filename), 'r') as f:

                for line in f:

                    if '失败的任务数目' in line:

                        failed_tasks_prev = int(line.split(',')[-1])

                        print(f"上一次失败任务数: {failed_tasks_prev}")

                        break

    try:

        if failed_tasks_current > failed_tasks_prev:

            print(f"任务失败数增加： \n 上一次失败任务数：{failed_tasks_prev} \n当前任务失败数： {failed_tasks_current}")

            return True, failed_tasks_current, failed_tasks_prev

        else:

            print("任务失败并没有增加.")

            return False, failed_tasks_current

    except Exception as e:

        print(e)

        return False, failed_tasks_current

dingding发送代码就不上啦大家都很熟悉啦

完成～

超级迅猛龙

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Yarn任务监控--dingding告警

并把当前失败任务数和上一个小时任务失败数做对比如果大于上一个小时任务失败数就告警出来@所有人。【目的】：定期一小时监控Yarn上的任务并且如果失败任务有新增就告警推送@所有人。【方法】：采用Yarn api方式每隔一个小时进行一次采集并把状态保留下来推送出去。dingding发送代码就不上啦大家都很熟悉啦。对比当前时间和上一次时间的任务情况。
复制链接

扫一扫