一、前言
由于项目需要,写了一个爬虫程序。用它解析唯品会中连衣裙的搜索结果页面(结果不止一页,需要循环解析),获取连衣裙的图片url(唯品会搜索结果页上的图片会有正反两张),然后把图片下载下来。因为以前用过一点JQuery,所以这里选择PyQuery。看中的是它强大的’选择器’,可以方便的取到我需要的标签,并且后续的取属性等操作也很方便。
二、遇到的问题
1.长时间无响应(
卡死)
程序中使用
urlopen打开下载网页和图片。我以为会有默认超时时间,并未设置。发现程序会卡死之后,我查阅了文档。
urllib2.
urlopen
(
url[, data[, timeout[, cafile[, capath[, cadefault[, context]]]]]
)