Python
wly2014
这个作者很懒,什么都没留下…
展开
-
使用scrapy爬取网站上的所有图片
主要的代码逻辑为: 1,从start_url开始,下载页面,根据正则表达式提取其中的图片,使用xpath提取<a>标签中的网址链接。 2,对于获取的图片链接,先判断之前是否已经爬取过(去重),没有的话,将图片链接拼接成完整的url格式,保存到img.txt中,使用其他的下载软件更快速的下载。(没有直接使用python下载,这样方便调试,检查自己的筛选规则是否正确) 3,对于提取到的网址,首先要原创 2016-11-08 11:20:52 · 5692 阅读 · 0 评论 -
scrapy实现递归爬取
使用scrapy踩的坑之如何使用scrapy实现递归爬取在使用scrapy爬取一个网站上所有的图片时,所遇到的一点坑,因为自己对scrapy不是很熟,所以最后是解决了一部分问题,但是还有一部分没有搞懂。以及对网上一些DEMO的不理解。原创 2016-11-08 20:34:40 · 18485 阅读 · 7 评论