用Scrapy爬取笔趣阁小说

今天早上无聊,去笔趣阁扒了点小说存Mongodb里存着,想着哪天做一个小说网站有点用,无奈网太差,爬了一个小时就爬了几百章,爬完全网的小说,不知道要到猴年马月去了。再说说scrapy这个爬虫框架,真是不用不知道,一用吓一跳,这个实在太好用了,比自己用request,Beautifulsoup这些模块来爬,实在要简单不知多少倍。废话不多说,现在开始上代码。

首先用virtualEnv创建虚拟环境并pip安装Scrapy的步骤我就不多废话了,建好project后在项目目录下会有如下几个文件

我们先点开items.py这个文件开始定义字段,这些字段用来保存数据,方便我们后续的操作。其中name是小说名字,author是作者,content是小说内容。

import scrapy


class ClawerItem(scrapy.Item):
    # define the fields for your item here like:
    name = scrapy.Field()
    author = scrapy.Field()
    content = scrapy.Field()

定义好字段后,我们就在spiders文件夹中编写自己的爬虫:rules可以理解成给定一个规则,让爬虫自己去爬这些网页,其中正则表达式则代表前缀满足http://www/biquge.com.tw/的任何网页,也就是爬整个笔趣阁, callback则是调用parse_item的方法。在parse_item里面,xpath只需在网页中打开开发者工具然后找到需要的地方,右键copy就可以了。至于不知道Xpath是什么的同学如果有兴趣可以到runoob去看看。

from scrapy.selector import Selector
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值