网页爬虫
文章平均质量分 64
钱塘小甲子
不懂控制的歌手不是好的投资者,不会TCM的coder不是好的FRM
展开
-
sjtuLib爬虫-Scrapy
交大的图书馆网站做的真的不好,不好。但是还是要爬。没有做防墙机制,在爬取了15万条记录之后,IP又被图书馆墙了,而且貌似整个实验室都被wall了。。。。上代码!from scrapy.spiders import Spider from scrapy.selector import Selector import scrapy#from scrapy import log原创 2016-05-13 22:01:16 · 996 阅读 · 0 评论 -
让爬虫更加友好
写一个爬虫去互联网上采集数据这件事情,看似好像对别人没有坏处,其实如果爬虫不断的去爬数据的话,会给爬取对象的网站造成很大的压力。所以我们往往会限制爬虫爬取的速度。之前最原始不用框架爬取交大的图书馆数据,后来整个实验室不能上图书馆的网了;使用了scrapy框架之后,没有做限速设置,后来又这样了。这次又改了一下。在spider同级目录下有一个settings.py文件,其中有一个配置,AUTO原创 2016-05-30 20:42:41 · 1256 阅读 · 0 评论 -
sjtuLib爬虫(一)
前段时间想看一本《天才在左,疯子在右》的书,到图书馆网站一看,发现被预约了十次之多,只能说当时我就醉了。后来一想,其实可以利用这一预约的数量来判断一本书的好坏与质量。这个社会,我们不缺书,而是缺少好书,往往会浪费时间在读一些不是那么好的书上。利用交大童鞋的集体智慧,挖掘一些好书,这是一个好法子!之前对爬虫也只是了解,所以先弄一个简单些的吧。我们现在python里面加入下面几个模块:原创 2015-11-20 21:40:17 · 1037 阅读 · 0 评论 -
Scrapy之图片爬取。
Scrapy有一个很好用的内置功能去获取图片。首先假设我们要自己写一个获取图片的爬虫吧。那么显然,你需要的就是获取图片链接,然后写一个专门下载图片的pipline。很开心的是,scrapy其实已经给你实现好了这个pipline了,是不是很贴心呢!好了,我们开始吧。和一般程序员同学爬取图片动不动就是美女不同,咱们今天爬汽车。# coding=gbkfrom scrapy.spide原创 2016-06-23 23:00:10 · 4051 阅读 · 0 评论 -
Scrapy的几个命令行命令
Scrapy在命令行有许多直接可以使用的命令。命令可以分为两类,一类是依赖于工程的,一类是不依赖的。对于不依赖的,就当做是一个工具就行了,有点java里面静态方法的感觉,就是一个tool。依赖于工程的方法有这么几个。1.list,进入工程文件夹之后,输入scrapy list就可以获取该工程下所有的爬虫名字。2.genspider。顾名思义,就是用来产生爬虫的。也是一个依赖于工程的。前原创 2016-06-20 21:34:41 · 1373 阅读 · 0 评论 -
Scrapy进阶之Scrapy的架构
Scrapy是一个python的爬虫架构,但是这个架构的工作原理是怎么的呢?也就是说,Scrapy的框架是怎么样的。网上已经有很多博文说这个框架了,但是我想用另外一种方法来讲述。 话说有一天,我想写一个爬虫。爬虫,说白了就是去互联网上下载东西,然后提取下载下来的页面中有用的字段。这件事怎么说也是一个工程吧,作为一个工程师,好吧,就是一个码农,你的模块化思想应该体现出来了。原创 2016-06-21 22:49:02 · 1032 阅读 · 1 评论 -
Scrapy之探讨3个细节
1.多个pipline的处理 在Scrapy的框架中,其实可以有好多pipline。大家在编写pipline的时候有没有这样的一个疑问,为什么pipline函数最后要有一个语句是return item 明明item是传入pipline的,怎么又传出去了呢。 大家还记得在使用pipline的时候,在setting文件中要写一个数字么, 比如:XXX.XXX.M原创 2016-06-22 21:55:56 · 1488 阅读 · 0 评论 -
想炒房?你得会爬虫
16年一年似乎楼市经常成为热点话题啊,而现在政府多次调控,意志很坚定的样子,那么市场的反应如何呢?我们来写个爬虫吧,目标网站就是链家网。我们在链家网上面可以看到有这些公司可以选择,所以我们的第一步就是获取每个城市的链接。老样子,我们用xpath来获取这些城市的链接:然后,我们只要遍历这些链接,取出我们要的数据,就是当前在售的二手房和出租的房屋就可以了。不多说原创 2016-11-30 21:18:07 · 1381 阅读 · 1 评论 -
绕过JS写爬虫
最近要把很多数据抓下来先存起来,现有历史数据再说。其中,东方财富网有许多数据,其中有一个是机构调研的数据。 http://data.eastmoney.com/jgdy/tj.html 我们希望抓取的是js生成的表格。 这种带有js的网站抓取其实不是那么简单的,基本分为那么几种方法,一种是观察页面,有的会有json数据,有的有js代码可以解析目标的url;一种是使用渲原创 2018-02-03 20:38:06 · 7538 阅读 · 1 评论