网络爬虫之scrapy的基本实现

前言

该来的还是要来的,作为网络爬虫,通用的requests库、beautifulsoup库还有常用的selenium库是非常优秀的,他们可以帮助我们解决绝大部分问题的。对于我们个人使用而言,学会这些,基本是够用了。但是哦,使用框架的爬虫可以帮助我们更高效的解决问题,所以…我们今天来看下scrapy的基础使用…

准备工作

  1. 安装scrapy库
    pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple
  2. 创建一个项目(这里创建一个通用图书爬虫项目)
    scrapy startproject book_spider
  3. 创建一个爬虫
    scrapy genspider a69novel 69shu.com

开始实践

此时我们就创建了一个完整的项目了,在这之前,先给大家看一下这个项目的目录树

.
├── book_spider
│   ├── __init__.py
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── settings.py
│   └── spiders
│       ├── __init__.py
│       └── a69novel.py
└── scrapy.cfg

接下来我们开始书写69shu.com网址的爬虫,为了只是做一个演示,对该网站中的一本小说进行爬取下载(ps:杀鸡用牛刀),这里选用校花的贴身高手叭(ps:笑哭),我们开始针对不同的py文件进行编写。

  1. item.py文件
    用来定义一个容器,这里我们定义四个字段
    novel_name = scrapy.Field()
    novel_chapter =scrapy.Field()  
    novel_content = scrapy.Field() 
    _id = scrapy.Field()
    
    分别用来存储小说名、小说章节、小说章节内容、小说章节id值
  2. a69novel.py文件
    这是一个爬虫文件,,由我们刚刚创建的爬虫命令生成的模板文件,这里我们需要对他进行改写。
  • 首先,我们需要创建一个item实例,导入刚刚创建好的对象

    from book_spider.items import BookSpiderItem_A69Novel
    item = BookSpiderItem_A69Novel() 
    
  • 接下来使用xpath获取内容,这里需要注意一点,由于文本内容需要点进去才可以看到,我们需要定义一个内容解析方法,具体如下:

    def parse_content(self, response):
            item = BookSpiderItem_A69Novel()  
            item['_id'] = response.xpath('//td[@valign="top"]/h1/text()').extract()
            item['novel_name'] = response.xpath('//div[@class="weizhi"]//a[3]/text()').extract_first()
            item['novel_chapter'] = response.xpath('//td[@valign="top"]/h1/text()').extract()
            item['novel_content'] = response.xpath('//div[@class="yd_text2"]/text()').extract()
            yield item
    
  • 针对我们的解析方法,我们需要做如下处理,将解析的url地址传给上述的内容解析方法

    def parse(self, response):
            temp_link = response.xpath('//div[@class="mu_contain"][2]/ul/li/a/@href').extract()
            for url in temp_link[:-1]:
                yield scrapy.Request(
                    str(url),
                    callback=self.parse_content
                )
    
到这里其实我们已经实现了一个简单的爬虫,但是我们的数据没有保存啊,来接下来,我们在settings.py中打开ITEM_PIPELINES,让数据传递到 pipelines让我们做下一步处理,当然,在这里大家可以自己设置USER_AGENT啥的。
ITEM_PIPELINES = {
   'book_spider.pipelines.BookSpiderPipeline': 300,
}
pipelines中我们做如下操作即可
from pymongo import MongoClient
import re
import json
cliect = MongoClient()
db = cliect['book_spider']

class BookSpiderPipeline(object):
    def process_item(self, item, spider):
        if spider.name == 'a69novel':
            collection = db['a69novel']
            # 去除多余字符和空字符
            temp = [re.sub('\r|\n|(\xa0\xa0\xa0\xa0)', '', str(i)) for i in item['novel_content']]
            t = [i for i in temp if i != '']
            content = ''
            for i in t[1:]:
                content += i
            id = re.findall('\d+', item['_id'][0])[0]
            novel_chapter = re.sub('\d+\.', '', item['novel_chapter'][0])
            item['_id'] = id
            item['novel_content'] = content
            item['novel_chapter'] = novel_chapter
            collection.insert(dict(item))
            print('ok')
        return item
最后一步,运行爬虫

scrapy crawl a69novel
耐心等待一下,效果就出来了哦
附源码地址,欢迎大家来玩

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值