Scrapy 框架实践爬虫--实践篇

最新推荐文章于 2020-11-22 15:30:44 发布

zln_mentu

最新推荐文章于 2020-11-22 15:30:44 发布

阅读量334

点赞数

分类专栏： python 文章标签： pythpn scrapy 爬虫

本文链接：https://blog.csdn.net/qq_22954451/article/details/79370082

版权

本文通过实例介绍了如何使用Scrapy框架爬取网站上的小说信息，包括小说名、作者、地址等。首先新建Scrapy项目，然后编写爬虫文件，定义start_urls和parse方法，利用BeautifulSoup和正则表达式解析网页内容，提取所需数据。在获取到数据后，将进行存储操作，详细内容会在后续博文中分享。

摘要由CSDN通过智能技术生成

Scrapy 框架实践爬虫–实践篇

前面已经对 scrapy 框架和思路进行了一个讲解。本篇文就来将理论进行实践。本爬虫的作用是通过主页爬取本站所有小说的简略信息 , 包括:小说名、作者、小说地址、状态、连载字数、文章类别、小说编号、收藏数、总点击数、总推荐数、最新更新日期。

代码地址附在文末 , 觉得有用请给我个 star 哟

本篇文中需要使用到的 python3 的库有:

scrapy
bs4
re

1. 新建项目

在项目目录下使用命令 ’ scrapy startprojet 项目名称’ , 新建一个 scrapy 项目

创建成功后 , 项目目录结构如下:

项目目录

spiders 目录存放爬虫 , items 文件定义需要获取的字段 , pipelines 对数据进行存储 , settings 用于存放各种设置。

2. 编写爬虫

在 spiders 目录下新建一个文件, 我将它命名为 DSpider , 这个文件作用主要就是对爬取下来的数据进行解析与提取。

为了使用这个爬虫 , 需要继承 scrapy.Spider 类 , 并且为定义爬虫定义属性(说白了就是给这几个变量或方法赋值)。

name 属性。name 是为了区分不同的爬虫(一个应用中可能存在多个爬虫) , 因此 name 属性必须是唯一的。
start_urls: start_urls 是当爬虫启动时去爬取的一个初始 url 列表 , 在这里我们只需要主页就可以了 , 其他页面的 url , 都可以从主页获取。
parse , 拿到主页内容后 , 就需要对我们需要的内容进行提取 , scrapy 中默认内容完成之后将包含下载内容的 response 传给 parse 方法中。

那么 , 文件的大致的框架已经出来了 , 接下来只需要往里面填充内容即可。(ps: 真的是没多少代码 , python 真方便)

class DSpider(scrapy.Spider):
    name = "DSpider"
    start_urls = [
        "http://www.23us.so/"
    ]

    def parse(self, response):
        print(response.text)
        print(response.body)

到底为止 , 已经可以获取到主页的内容了。可以尝试运行看看。

运行爬虫的时候需要注意一点 , 如果是直接使用依靠命令运行项目 , 只需要在项目的

最低0.47元/天解锁文章

zln_mentu

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Scrapy 框架实践爬虫--实践篇

Scrapy 框架实践爬虫–实践篇前面已经对 scrapy 框架和思路进行了一个讲解。本篇文就来将理论进行实践。本爬虫的作用是通过主页爬取本站所有小说的简略信息 , 包括:小说名、作者、小说地址、状态、连载字数、文章类别、小说编号、收藏数、总点击数、总推荐数、最新更新日期。代码地址附在文末 , 觉得有用请给我个 star 哟本篇文中需要使用到的 python3 的库有:scrap...
复制链接

扫一扫

专栏目录