最近在根据项目需求。统计10万个query,召回的xml中提取某标签信息。共启动10个线程,不过在统计过程线程出现UrlError的异常,但是在线程中未捕获异常,导致线程提前终止。导致统计信息异常。</span><pre>
出现问题后,通过查询得知,线程中有自己独有的栈,当线程抛出异常后,假如未捕获的话,线程会直接结束,但是不影响其它线程的运行,通过捕获异常,对异常进行处理,此线程不会终止,执行完异常处理代码后,可继续执行execp后的代码。
如果服务器网络状况不好,爬取网页数据时需要设置socket超时,设置超时后,当read()超时时,程序会抛出socket.timeout的异常。设置超时有以下两种方法:
1、为urlopen设置可选参数 timeout
f = urllib2.urlopen(r, data=None, timeout=3)
2、设置全局的socket超时:
import socket
socket.setdefaulttimeout(10.0)