scrapy爬虫
帅东
当我回忆往事的时候,不会因虚度年华而悔恨,也不会因碌碌无为而羞愧
展开
-
scrapy爬虫【4】→爬百度美女图
本来这篇文章不想爬百度的,但是想到有人可能看到我上一篇博客之后,回去自己去爬百度美眉图我也敢说,有很大一部分人学习爬虫都有爬百度美眉的想法,不然会感觉世界缺少了点啥,O(∩_∩)O哈哈~上一篇文章也说了,百度不是那么容易爬的,因为百度的图片不是在html网页中直接展示的,给你展示的只是很少一部分。他们采用了AJAX(异步JavaScript和XML)这样做的目的不是为了反爬虫,是因为这样节约网络流量原创 2017-06-04 21:35:42 · 5102 阅读 · 5 评论 -
scrapy爬虫【1】→学习路上的坑和大家一起分享
最近迷上了爬虫,当我昨晚完成一个自己的项目的时候,一阵感慨,学习路上的坑和大家一起分享 网上很多教程博客说的不全(自己深有体会,我百度N好多次,差点都放弃了爬虫),看到别人爬取某个网站,但是当你自己动手做的时候会发现啥都干不了xpath解析失败?网页都进不去?原因可能有以下几个: 1. 看看你settings.py文件里面是不是有个ROBOTSTXT_OBEY = True 2. 看看你s原创 2017-06-03 08:48:08 · 1763 阅读 · 1 评论 -
scrapy爬虫【2】→爬天猫
本文主要是以爬取淘宝为例子,但请不要大量爬取,对别人服务器造成压力,其实也不敢多爬,别人的防爬机制应该很厉害,小心ip被封。首先要明确目标 比如:老板今天叫你爬取天猫销量前120的笔记本电脑的一些详细信息 然后你就可以先打开天猫笔记本电脑网址https://list.tmall.com/search_product.htm?spm=875.7931836/B.subpannel2016040.1原创 2017-06-03 13:49:53 · 6790 阅读 · 9 评论 -
scrapy爬虫【3】→爬图片
爬图片在scrapy中特别简单,其实原理也是非常简单啊 打开图片的url,然后保存到本地。 不用scrapy:r = requests.get(url)Image.open(BytesIO(r.content)).save('images\1.jpg')现在看一下用scrapy该怎么弄 接着上篇博客的代码,为了方面大家看出增加的代码,我以图片的形式展示 先看一下item.py中增加的代码吧原创 2017-06-03 18:35:04 · 1595 阅读 · 1 评论