刚入职事情比较多,有段时间没写博客了。
公司的一个项目要求,使用scrapy做爬虫,所以自己周末闲来没事也就瞎倒腾了一个爬电子书的爬虫。同时也推荐大家一个资源非常好的电子书托管平台,看云。里面的很多资料都是非常不错的感觉像是经过筛选的,关键是居然有的还有word。业界良心啊!!
1.scrapy
scrapy作为python下的爬虫框架,已经被广泛使用了,它的好处在于帮我们处理好了http请求的各种状况,不需要我们手动判断,只要我们扔给它一条url,它自然能爬出个结果来。但问题来了,我们通常的爬虫是递归做的,这样就要求我们循环爬里面的url。这就要求我们去解析网页返回的内容,找到href的字段值,再次请求,如此下去。scrapy同样为我们提供了网页分析xpath的支持等。
def parse(self, response):
resp = Selector(response)
resp_url = response.url
url_content = urlparse.urlparse(resp_url)
scheme = url_content.scheme
net_location = url_content.netloc
link_list = resp.xpath("/html/body/*//dt/a/&