一、问题描述
起初,老板让设计实现一个远程控制某几台计算机程序的开启与停止,这几台远程工作的计算机的任务之一是“模拟浏览器进行数据采集”。
1、首先,通过socket编程,与远端计算机进行通信实现;
2、发送开启命令,远端计算机调用开始运行的函数即可;
3、发送停止命令,远程计算机接收到这个命令后如何停下“一个看上去是死循环的程序”呢?于是想到了kill掉这个程序。
liunx中kill一个程序通常是找到进程号,然后“kill -9 XXX”。
二、开始使用的“方法A”
def _async_raise(tid, exc_type):
# 用抛出异常的方式, 终止线程
tid = ctypes.c_long(tid)
if not inspect.isclass(exc_type):
exc_type = type(exc_type)
res = ctypes.pythonapi.PyThreadState_SetAsyncExc(tid, ctypes.py_object(exc_type))
if res == 0:
raise ValueError("invalid thread id")
elif res != 1:
ctypes.pythonapi.PyThreadState_SetAsyncExc(tid, None)
raise SystemError("PyThreadState_SetAsyncExc failed")
else:
pass # 如果res大于1,使用exc=NULL参数再调用一次
def stop_thread(thread):
_async_raise(thread.ident, SystemExit)
class GrabThread(threading.Thread): # 这里可以根据实际需要,在构造函数里增加参数
def __init__(self, keywords, the_proxy, the_tweet_col):
# threading.Thread.__init__(self)
super(GrabThread, self).__init__()
self.keyword = keywords
self.proxy = the_proxy
self.tweet_col = the_tweet_col
def run(self):
filter_real_time_tweets(the_tweet_collection=self.tweet_col, the_proxy_list=self.proxy,
the_key_words=self.keyword, locations=None)
这种方法网上很多种各种复制与被复制,测试发现有问题。
遇到的问题是程序好像是停下来了,我们的采集程序不采集了,那么问题来了,模拟浏览器的驱动没有退出,现象是:浏览器窗口还在,只是不动了。
另一个问题是,每停止一次,重新开启采集,无论是模拟浏览器还是无需浏览器参与的API采集,均出现了二次开启,打印输出语句出现“每句都被重复打印两次”的问题。再次关闭,开启,又成为打印三遍,以此类推。
右上,可见,这种线程抛出异常的方法,并没有完全退出。我们也可以在Linux查看这个进行下的线程的具体情况进行观察。
三、使用的“方法B”
改用开启新的进程的方法,每次需要停止远程程序,直接杀死这个进程。
P = Process(target=filter_real_time_tweets,
kwargs={函数对应的具体参数}) # 创建进程
P.start()
crawler_thread_list.append(P.pid) # 保存进程id
connect.close()
# --------------------------------------------------
process_pid = crawler_thread_list.pop() # 取进程id
cmd = "kill -9 %d" % int(process_pid) # 杀进程
os.system(cmd)
杀死的很彻底,很干净。
但是有个问题是:登录的账号相当于直接被关掉,没有正常退出。若调用了数据库的资源,如果我们需要进行数据更新,那么很遗憾,不会被更新。
例如:我在数据库中提取了某个数据A,提取的时候我标记为了“正在使用”,期望的是正常退出的话,由程序代码实现更新为“未被使用”。但是这个时候不是正常执行退出,而是被外界强行干掉,那么这个更新的代码就不会被执行,从外部看来,这条数据好像一直被占用。
可能的解决方案:有外部传递命令的程序进行数据库的更新操作,在数据库中标记“被XX占用”,若XX程序已经不再执行,则将该数据更新为“未被占用”。