网络爬虫之scrapy的基本实现

最新推荐文章于 2024-03-13 09:53:04 发布

菜鸡小豆子

最新推荐文章于 2024-03-13 09:53:04 发布

阅读量376

点赞数

分类专栏：网络爬虫文章标签： python

本文链接：https://blog.csdn.net/douziaaa/article/details/105921147

版权

网络爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

前言

该来的还是要来的，作为网络爬虫，通用的requests库、beautifulsoup库还有常用的selenium库是非常优秀的，他们可以帮助我们解决绝大部分问题的。对于我们个人使用而言，学会这些，基本是够用了。但是哦，使用框架的爬虫可以帮助我们更高效的解决问题，所以…我们今天来看下scrapy的基础使用…

准备工作

安装scrapy库
pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple
创建一个项目(这里创建一个通用图书爬虫项目)
scrapy startproject book_spider
创建一个爬虫
scrapy genspider a69novel 69shu.com

开始实践

此时我们就创建了一个完整的项目了，在这之前，先给大家看一下这个项目的目录树

.
├── book_spider
│   ├── __init__.py
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── settings.py
│   └── spiders
│       ├── __init__.py
│       └── a69novel.py
└── scrapy.cfg

接下来我们开始书写69shu.com网址的爬虫，为了只是做一个演示，对该网站中的一本小说进行爬取下载（ps:杀鸡用牛刀），这里选用校花的贴身高手叭（ps：笑哭）,我们开始针对不同的py文件进行编写。

item.py文件
用来定义一个容器，这里我们定义四个字段
```
novel_name = scrapy.Field()
novel_chapter =scrapy.Field()  
novel_content = scrapy.Field() 
_id = scrapy.Field()
```
分别用来存储小说名、小说章节、小说章节内容、小说章节id值
a69novel.py文件
这是一个爬虫文件，，由我们刚刚创建的爬虫命令生成的模板文件，这里我们需要对他进行改写。

首先，我们需要创建一个item实例，导入刚刚创建好的对象

from book_spider.items import BookSpiderItem_A69Novel
item = BookSpiderItem_A69Novel()

接下来使用xpath获取内容，这里需要注意一点，由于文本内容需要点进去才可以看到，我们需要定义一个内容解析方法，具体如下：

def parse_content(self, response):
        item = BookSpiderItem_A69Novel()  
        item['_id'] = response.xpath('//td[@valign="top"]/h1/text()').extract()
        item['novel_name'] = response.xpath('//div[@class="weizhi"]//a[3]/text()').extract_first()
        item['novel_chapter'] = response.xpath('//td[@valign="top"]/h1/text()').extract()
        item['novel_content'] = response.xpath('//div[@class="yd_text2"]/text()').extract()
        yield item

针对我们的解析方法，我们需要做如下处理，将解析的url地址传给上述的内容解析方法

def parse(self, response):
        temp_link = response.xpath('//div[@class="mu_contain"][2]/ul/li/a/@href').extract()
        for url in temp_link[:-1]:
            yield scrapy.Request(
                str(url),
                callback=self.parse_content
            )

到这里其实我们已经实现了一个简单的爬虫，但是我们的数据没有保存啊，来接下来，我们在`settings.py`中打开`ITEM_PIPELINES`,让数据传递到 `pipelines`让我们做下一步处理，当然，在这里大家可以自己设置USER_AGENT啥的。

ITEM_PIPELINES = {
   'book_spider.pipelines.BookSpiderPipeline': 300,
}

在`pipelines`中我们做如下操作即可

from pymongo import MongoClient
import re
import json
cliect = MongoClient()
db = cliect['book_spider']

class BookSpiderPipeline(object):
    def process_item(self, item, spider):
        if spider.name == 'a69novel':
            collection = db['a69novel']
            # 去除多余字符和空字符
            temp = [re.sub('\r|\n|(\xa0\xa0\xa0\xa0)', '', str(i)) for i in item['novel_content']]
            t = [i for i in temp if i != '']
            content = ''
            for i in t[1:]:
                content += i
            id = re.findall('\d+', item['_id'][0])[0]
            novel_chapter = re.sub('\d+\.', '', item['novel_chapter'][0])
            item['_id'] = id
            item['novel_content'] = content
            item['novel_chapter'] = novel_chapter
            collection.insert(dict(item))
            print('ok')
        return item

最后一步，运行爬虫

scrapy crawl a69novel
耐心等待一下，效果就出来了哦
附源码地址，欢迎大家来玩

菜鸡小豆子

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫之scrapy的基本实现

前言该来的还是要来的，作为网络爬虫，通用的requests库、beautifulsoup库还有常用的selenium库是非常优秀的，他们可以帮助我们解决绝大部分问题的。对于我们个人使用而言，学会这些，基本是够用了。但是哦，使用框架的爬虫可以帮助我们更高效的解决问题，所以…我们今天来看下scrapy的基础使用…准备工作安装scrapy库pip install scrapy -i https...
复制链接

扫一扫