linux代码实现进程监控,Linux监控重要进程的实现方法

Linux监控重要进程的实现方法linux

无论后台服务程序写的多么健壮,仍是可能会出现core dump等程序异常退出的状况,可是通常状况下须要在无shell

人为干预状况下,可以自动从新启动,保证服务进程可以服务用户。这时就须要一个监控程序来实现可以让服务进程自动从新启动。查阅相关资料及尝试一些方法以后,总结linux系统监控重要进程的实现方法:脚本检测和子进程替换。apache

一、脚本检测 (1) 基本思路: 经过shell命令(ps -e | grep "$1" | grep -v "grep" | wc -l) 获取 $1 ($1 表明进程的名字)的进程数,脚本根据进程数来决定下一步的操做。经过一个死循环,每隔几秒检查一次系统中的指定程序的进程数,这里也可以使用crontab来实现。 (2) 具体实现过程的代码以下: [ supervisor.sh ]函数

#! /bin/sh

# supervisor process

LOG_FILE=/var/log/supervisor_sh.log

# log function

function log() {

local t=$(date +"%F %X")

echo "[ $t ] $0 : $1 " >> ${LOG_FILE}

}

# check process number

# $1 : process name

function check_process() {

if [ -z $1 ]; then

log "Input parameter is empty."

return 0

fi

p_num=$(ps -e | grep "$1" | grep -v "grep" | wc -l)

log "p_num = $p_num"

echo $p_num

}

# supervisor process

while [ 1 ]

do

declare -i ch_num

p_name="apache2"

ch_num=$(check_process $p_name)

if [ $ch_num -eq 0 ]; then

killall $p_name

service $p_name start

fi

sleep 3

done

#! /bin/sh

# supervisor process

LOG_FILE=/var/log/supervisor_sh.log

# log function

function log() {

local t=$(date +"%F %X")

echo "[ $t ] $0 : $1 " >> ${LOG_FILE}

}

# check process number

# $1 : process name

function check_process() {

if [ -z $1 ]; then

log "Input parameter is empty."

return 0

fi

p_num=$(ps -e | grep "$1" | grep -v "grep" | wc -l)

log "p_num = $p_num"

echo $p_num

}

# supervisor process

while [ 1 ]

do

declare -i ch_num

p_name="apache2"

ch_num=$(check_process $p_name)

if [ $ch_num -eq 0 ]; then

killall $p_name

service $p_name start

fi

sleep 3

done

二、子进程替换 (1) 基本思路:  a. 使用fork函数建立一个新的进程,在进程表中建立一个新的表项,而建立者(即父进程)按原来的流程继续执行,子进程执行本身的控制流程 b. 运用execv函数把当前进程替换为一个新的进程,新进程由path或file参数指定,可使用execv函数将程序的执行从一个程序切换到另外一个程序 c. 当fork启动一个子进程时,子进程就有了它本身的生命周期并将独立运行,此时能够在父进程中调用wait函数让父进程等待子进程的结束 (2) 基本的实现步骤:  a. 首先使用fork系统调用,建立子进程 b. 在子进程中使用execv函数,执行须要自动重启的程序 c. 在父进程中执行wait函数等待子进程的结束,而后从新建立一个新的子进程 (3) 具体实现的代码以下: supervisor.c测试

/**

*

* supervisor

*

* date: 2016-08-10

*

*/

#include 

#include 

#include 

#include 

#include 

#include 

#include 

#include 

#define LOG_FILE "/var/log/supervisor.log"

void s_log(char *text) {

time_t      t;

struct tm  *tm;

char *log_file;

FILE *fp_log;

char date[128];

log_file = LOG_FILE;

fp_log = fopen(log_file, "a+");

if (NULL == fp_log) {

fprintf(stderr, "Could not open logfile '%s' for writing\n", log_file);

}

time(&t);

tm = localtime(&t);

strftime(date, 127, "%Y-%m-%d %H:%M:%S", tm);

/* write the message to stdout and/or logfile */

fprintf(fp_log, "[%s] %s\n", date, text);

fflush(fp_log);

fclose(fp_log);

}

int main(int argc, char **argv) {

int ret, i, status;

char *child_argv[100] = {0};

pid_t pid;

if (argc 

fprintf(stderr, "Usage:%s  ", argv[0]);

return -1;

}

for (i = 1; i 

child_argv[i-1] = (char *)malloc(strlen(argv[i])+1);

strncpy(child_argv[i-1], argv[i], strlen(argv[i]));

//child_argv[i-1][strlen(argv[i])] = '0';

}

while(1) {

pid = fork();

if (pid == -1) {

fprintf(stderr, "fork() error.errno:%d error:%s", errno, strerror(errno));

break;

}

if (pid == 0) {

s_log(child_argv[0]);

ret = execv(child_argv[0], (char **)child_argv);

s_log("execv return");

if (ret 

fprintf(stderr, "execv ret:%d errno:%d error:%s", ret, errno, strerror(errno));

continue;

}

s_log("exit child process");

exit(0);

}

if (pid > 0) {

pid = wait(&status);

fprintf(stdout, "Child process id: %d\n", pid);

//fprintf(stdout, "wait return");

s_log("Wait child process return");

}

}

return 0;

}

/**

*

* supervisor

*

* date: 2016-08-10

*

*/

#include

#include

#include

#include

#include

#include

#include

#include

#define LOG_FILE "/var/log/supervisor.log"

void s_log(char *text) {

time_t t;

struct tm *tm;

char *log_file;

FILE *fp_log;

char date[128];

log_file = LOG_FILE;

fp_log = fopen(log_file, "a+");

if (NULL == fp_log) {

fprintf(stderr, "Could not open logfile '%s' for writing\n", log_file);

}

time(&t);

tm = localtime(&t);

strftime(date, 127, "%Y-%m-%d %H:%M:%S", tm);

/* write the message to stdout and/or logfile */

fprintf(fp_log, "[%s] %s\n", date, text);

fflush(fp_log);

fclose(fp_log);

}

int main(int argc, char **argv) {

int ret, i, status;

char *child_argv[100] = {0};

pid_t pid;

if (argc < 2) {

fprintf(stderr, "Usage:%s ", argv[0]);

return -1;

}

for (i = 1; i < argc; ++i) {

child_argv[i-1] = (char *)malloc(strlen(argv[i])+1);

strncpy(child_argv[i-1], argv[i], strlen(argv[i]));

//child_argv[i-1][strlen(argv[i])] = '0';

}

while(1) {

pid = fork();

if (pid == -1) {

fprintf(stderr, "fork() error.errno:%d error:%s", errno, strerror(errno));

break;

}

if (pid == 0) {

s_log(child_argv[0]);

ret = execv(child_argv[0], (char **)child_argv);

s_log("execv return");

if (ret < 0) {

fprintf(stderr, "execv ret:%d errno:%d error:%s", ret, errno, strerror(errno));

continue;

}

s_log("exit child process");

exit(0);

}

if (pid > 0) {

pid = wait(&status);

fprintf(stdout, "Child process id: %d\n", pid);

//fprintf(stdout, "wait return");

s_log("Wait child process return");

}

}

return 0;

}

(4) 测试验证 a. 假设须要自动重启的程序为demo.c,其代码实现以下所示:spa

/*

*

* demo

*

*/

#include 

#include 

#include 

#include 

#include 

#include 

#include 

#include 

#define LOG_FILE "/var/log/demo.log"

void demo_log(int num) {

time_t      t;

struct tm  *tm;

char *log_file;

FILE *fp_log;

char date[128];

log_file = LOG_FILE;

fp_log = fopen(log_file, "a+");

if (NULL == fp_log) {

fprintf(stderr, "Could not open logfile '%s' for writing\n", log_file);

}

time(&t);

tm = localtime(&t);

strftime(date,127,"%Y-%m-%d %H:%M:%S",tm);

/* write the message to stdout and/or logfile */

fprintf(fp_log, "[%s] num = %d\n", date, num);

fflush(fp_log);

fclose(fp_log);

}

int main(int argc, char **argv[]) {

int num = 0;

while(1) {

sleep(10);

num++;

demo_log(num);

}

}

/*

*

* demo

*

*/

#include

#include

#include

#include

#include

#include

#include

#include

#define LOG_FILE "/var/log/demo.log"

void demo_log(int num) {

time_t t;

struct tm *tm;

char *log_file;

FILE *fp_log;

char date[128];

log_file = LOG_FILE;

fp_log = fopen(log_file, "a+");

if (NULL == fp_log) {

fprintf(stderr, "Could not open logfile '%s' for writing\n", log_file);

}

time(&t);

tm = localtime(&t);

strftime(date,127,"%Y-%m-%d %H:%M:%S",tm);

/* write the message to stdout and/or logfile */

fprintf(fp_log, "[%s] num = %d\n", date, num);

fflush(fp_log);

fclose(fp_log);

}

int main(int argc, char **argv[]) {

int num = 0;

while(1) {

sleep(10);

num++;

demo_log(num);

}

}

b. 测试准备和说明:.net

b1. 以上相关服务程序编译后的二进制文件为: supervisor 和 democode

b2. 执行以下测试命令 ./supervisor ./demoblog

c. 测试的结果:生命周期

c1. execv(progname, arg) 执行成功后,其后的代码不会执行;只有当执行错误时,才会返回 -1。原来调用execv进程的代码段会被progname应用程序的代码段替换。

c2. 当kill掉子进程时,父进程wait函数会接收到子进程退出的信号,进而循环再启动子进程,此过程实时性很是高。

c3. 当kill掉父进程时,子进程会被init进程接管,若是此时再kill掉子进程,则子进程会退出。

c4. 当同时kill掉父子进程,则父子进程都会退出。

主要功能: 1.读取配置文件程序 2.启动进程 3.监控进程,查看进程是否退出或者崩溃 4.若进程退出或者崩溃,重启程序。 5.支持sleep功能 6.进程若连续崩溃NUM_MAX次就进行相应的睡眠周期struct proc_struct proc: struct proc_ struct [mp: if(array) return 0 ∥切换到目录rse chdirldiri ifdp= opendir(dir}=NuLL}开日录/proc,矢败返回0,成功把描述指针返回给d return o 〃将φpro文件夹的描述符指针传递给reεddir,读取文件夹内容,循环赋值给结构体di while ((dirp= readdir(dp))= NULLY char data 301 ∥取文件名称赋值给数组daa(其中包含有进程的名称(pid sprintf(data, "s", dirp->d_name); ∥是否是由字符09组成的字符串,即得到所有进程的pid f((IsDigit(data)) prac =(struct proc_struct )4 malloc(sizeof(struct proc_struct) tmp proc: prac->pid =a: oi(dirp->d_name): It(proc tind( proc. array)) free( tmp); closedir(dp cturn proc_find 两个参数分别是两个进程描述的结构体指针 李比较两个进程pd是否相等 李*相等返回1,不相等返回0 幸率球事容球家草事家事球峰率享事球摩率球享享溶事*事卷寒球套事塞容寒/ int proc find( struct prcc_struct* src, struct proc- struct* dest) char buffer[40%6]. ps cmd[20] It fd. I sprintf(buffer, "ed/star", sre->pid); fd = open(butter, O_RDONLY) if(fd==-1) rerurn 0 memset(buffer, wO, sizeof(buffer)) len= read(fd, bufter, sizeof(bufter )-1) close(ld) if(l return 0: p= butter: p= strrchr(p, C) narq=strrchr(p, )) n=q-p-1 if (len >= sizeof, srt->name)) len= sizeof(src->name)-1 p+ l, len src->namelen]=0; =日 turn(strcmp( src->name, dest dest->name)==0)? 1: 0- 条善参数aay:让程结构体指针;参数sie进程列表数组aray的大小ie:配置文件路径 从配置文件得到指定的程序列表,将对应进程的信息填充到aray数组中 羋执行成功返回进程个数,执行失败返回0 int get_ proc( struct proc_struct array, int size, char file intnRet=o if(! array I‖(si 0)l‖fhle myprinttf"invalid parameterin retun o char line[4096]; FILE fp= fopen(file, T"); if(fp) printf("open file cs fail\n", file) return U memset(line, 0, 4095); while(fgets(lire, 4095, tp)&& nRet size) memcpy(void s)[(&arraylnRet )->cmdline), (void")line, strlen(line)-2 ) tmp= strrchr(line, / ) Lmp += I: memcpy((&array inRet))->name, tmp, strlen(tmp)- 2) nRet++ ); return(nReL); 康棒串串浓凉率旅浓串底率卖毒志着旅浓浓准溶房表 装 startProc *卷参数proc:要启动的进的结构体描述指针 启动程序 执行成功返回1,子进程退出 宗塞家康家家家家家家家家宋家家聚家苯家球察塞家塞家家容家塞家家家家室家家察家家家聚家聚寒撑家装家掌建察家家室事 int startProc (struct proc_ struct* proc, struct proc _struct*must_run_ proc int mIst_run_size static inti=d if( proc)return 0 if(strlen(proc->cmdline I<=0) return 0; int pid= forko: 〃进程内部返回值为0,返回给父进程的为自己的pid inta〓 if(pid pid= fork( ifpd≡0 execl(char")proc->cmdline,(char")prDc->name,NULL); ∥exit: It(o): sleep42片 waiL(NULL) sleep( I: if(i== must run size -1) if(check proc(&must run proc[i])==0) startProc( &mtust_run_proeli], must_run_prce, must_run_size); el if(i== must run size-11 i= else 1++ start Proc( &must_run_proclil, must_run_ proc, mustrun_ _size); !**幸幸串率幸米幸*家*幸毕零*幸幸半字幸字华米*幸半孝率非幸零幸学幸幸车 3a*8*daemon init 幸*启动配置文件当中的需要守护的程序 执行成功返回1,中途出错,返回-1 长界零家墨军零家零率家三哮零座零率零零容岸军零罕型率零零零零牢察座察零零零零季球军零容零 int moniter_ run(struct proc_struct"must_run_proc, int proc_ size) nti=0: for(i=0; i< must_run_size: i ++) ∥监控程序是否正在运行 if(check_ proc(&(must un_ proc[il))<=o) ∥厘新片动程序 startProc(&' must run procli]), must run proc, proc size return I: 幸*事率事率率**率**字幸学摩*率*幸幸学幸半*率幸字****幸中*幸学幸 春*着*信号处理函数 exit_proc 翥安全结束监控的程序 4来没有返回值 告参毒萨响幸帝称昨嗜幸古称索点响卷南都南请南幸难布际本啪昨青市南动南香请非市赤南本 void exit_ proc(int ar InL I struct proc struct proc for(i=0; i< must run_ Size: i++) proc=&(must_run_proc[i]): kill(proc->pid, SIGTERM); exit flag=I exit(o): void exit_proc(int pid 要main L.获取程序列表2启动进程3.监控进程,若程序岀或崩溃,重新启动程序4.收到退 出信号,安全结束监控程序 成功返回1,失败返回0 零牢容容家容字家容容察*禁容容字哮零常字容容容家察容牢容零容容容容容牢字家客字容牢容零容*字容客字容容字容家容容字岩 static void run moniter( void data) 读取程序列表 must_ run _size get proc(must_run_proc, sIZE, data if(rmust run Sizc <=1) return o struct sigaction act, oldact act,sa handler= exit_proc act. sa flags =SA ONESHOT sigaction(SIGTERM, &act, NULL) sigaction(SIGINT, &act, NULL) sigaction(sIGHUP, &act, NULL); 检测并启动未启动的程序 moniter_ run(must run proc, must run slze) eturn null int creat and run moniter(char * file) 开线程: pthread_t moniter_ thread if(pthread_create(&moniter_thread, NULL, run_moniter, file)==0) printf("thread create Ok, check thread start \n") return printf( thread check create Errin"): return -I 零零零零享享事职增零半非寥零享半容零摩率率零享剩率容半半享零半率零半率零率辱寒零享 要 IsDigit 参茶爹数a字符串的地址 *判断字符串是否有纯数字字符组成 春客是纯数字返回1,不是纯数字返回0 喜非要串思率串串串串家串润串串串串串串毒毒喜串串最率毒串串踪串率串串非球毒串妆串串毒串串影零串串毒事串 static int IsDigit[char aD) Int size ∥得到当前字符串的长度 size= strlen(a: ∥若字符串长度为0,则直接返回0:即宇符串为空则返回0: if(size ==0) return 0; ∥循环遍历整个字符串 forli=0; i< Size; i++) ∥如果字符小于字符0,或者大于字符9,则返回0 if(ai]<ol ai>9) retum ∥走到这一步说明字符串由字符09组成,返回1 return l; 主进程源文件:man,c main.c #include"process, h Include <stdio. h> include <stdlib h> 甲 include< unistd. I> 甲 nclude< signal> 却 nclude <sys/ ypes,h include <sys/stat. h> 甲 include< tenth> int main(void) creat_and_run_moniter("proclistini") while(l) sleep(D) turn 以上内容是程序全部源文件
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值