今天早上无聊,去笔趣阁扒了点小说存Mongodb里存着,想着哪天做一个小说网站有点用,无奈网太差,爬了一个小时就爬了几百章,爬完全网的小说,不知道要到猴年马月去了。再说说scrapy这个爬虫框架,真是不用不知道,一用吓一跳,这个实在太好用了,比自己用request,Beautifulsoup这些模块来爬,实在要简单不知多少倍。废话不多说,现在开始上代码。
首先用virtualEnv创建虚拟环境并pip安装Scrapy的步骤我就不多废话了,建好project后在项目目录下会有如下几个文件
我们先点开items.py这个文件开始定义字段,这些字段用来保存数据,方便我们后续的操作。其中name是小说名字,author是作者,content是小说内容。
import scrapy
class ClawerItem(scrapy.Item):
# define the fields for your item here like:
name = scrapy.Field()
author = scrapy.Field()
content = scrapy.Field()
定义好字段后,我们就在spiders文件夹中编写自己的爬虫:rules可以理解成给定一个规则,让爬虫自己去爬这些网页,其中正则表达式则代表前缀满足http://www/biquge.com.tw/的任何网页,也就是爬整个笔趣阁, callback则是调用parse_item的方法。在parse_item里面,xpath只需在网页中打开开发者工具然后找到需要的地方,右键copy就可以了。至于不知道Xpath是什么的同学如果有兴趣可以到runoob去看看。
from scrapy.selector import Selector
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule