scrapy学习之爬虫练习平台爬取

最新推荐文章于 2023-07-19 00:46:02 发布

LLLibra146

最新推荐文章于 2023-07-19 00:46:02 发布

阅读量2.3k

点赞数 2

文章标签：爬虫 python

本文链接：https://blog.csdn.net/u013586693/article/details/109455747

版权

本文章首发于个人博客，链接为：https://blog.d77.xyz/archives/35dbd7c9.html

前言

为了练习 Scrapy，找了一个爬虫练习平台，网址为：https://scrape.center/，目前爬取了前十个比较简单的网站，在此感谢平台作者提供的练习平台。

环境搭建

开始爬取前，首先要先把环境搭建起来，Pycharm 新建项目 learnscrapy 和对应的虚拟环境，安装好 Scrapy 和 PyMysql，执行 scrapy startproject learnscrapy 新建一个 scrapy 项目，搭建环境的具体步骤就不详细说了，项目也开源到了 Github 上，地址在这。

开始前的准备

由于新建好的项目都是默认设置，所以在开始分析对应网站之前先进行一番设置，方便后边的爬取。

设置robots规则

在 settings.py 文件中将 ROBOTSTXT_OBEY 的值改为 False。这个其实在目前来说不需要设置，因为目标网站并不存在 robot 文件，但是为了莫名其妙的防止少抓数据，还是养成习惯吧。

设置日志等级

默认日志等级是 DEBUG，会将所有的请求及状态打印出来，大规模爬取时日志很多且很乱，将下列设置添加到 settings.py 文件中过滤掉一部分日志。

import logging
LOG_LEVEL = logging.INFO

设置下载延迟

为了不对目标网站造成太大影响，稍微降低下下载延迟，默认的下载延迟是 0，将 DOWNLOAD_DELAY 取消注释并且设置为 0.1。

关掉Telnet控制台

目前基本用过不到它，还是关了吧。将 TELNETCONSOLE_ENABLED 的值设置为 False。

更改默认的请求头

为了让我们的请求更像正常请求，所以需要设置下默认的请求头，防止被 ban。

DEFAULT_REQUEST_HEADERS = {
   'Accept': 'text/html,application/xhtml+xml,application/xml,application/json;q=0.9,*/*;q=0.8',
                           'accept-encoding': 'gzip, deflate, br',
                           'accept-language': 'zh-CN,zh;q=0.9',
                           'cache-control': 'no-cache',
                           'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, '
                                         'like Gecko) Chrome/86.0.4240.75 Safari/537.36'
                           }

管道和中间件用到的时候再开启吧，准备工作到此就结束了。

数据库

准备好一个 MySQL 的 docker 容器，设置好数据库的账号和密码，并且新建一个名为 test 的数据库，运行项目根目录中的 test.sql 文件，会生成三个表，下边爬取时会用到。

开始爬取

ssr1

ssr1 说明如下：

ssr1:电影数据网站，无反爬，数据通过服务端渲染，适合基本爬虫练习。

由于是服务端渲染，那么数据肯定存在于 HTML 源码中，直接从源码中抓数据即可。

在 spiders 文件夹中新建一个ssr1.py 文件，写入以下代码：

import scrapy


class SSR1(scrapy.Spider):
    name = 'ssr1'

    def start_requests(self):
        urls = [
            f'https://ssr1.scrape.center/page/{a}' for a in range(1, 11)
        ]
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response, **kwargs):
        pass

这两个方法是我们需要实现的，start_requests 方法中存储了起始 URL，通过 yield 将请求发送给下载器，通过默认的 parse 方法处理返回的数据。

在解析数据前，还有几件事需要做，设置采集数据的字段，开启 item 管道，指定数据由谁来处理，并且将修改后的设置写入到 setting.py 文件中。

需要新建需要采集的数据所拥有的字段，在 items.py 文件中添加以下内容：

class SSR1ScrapyItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field

最低0.47元/天解锁文章

LLLibra146

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
3
评论
scrapy学习之爬虫练习平台爬取

前言为了练习 Scrapy，找了一个爬虫练习平台，网址为：https://scrape.center/，目前爬取了前十个比较简单的网站，在此感谢平台作者提供的练习平台。环境搭建开始爬取前，首先要先把环境搭建起来，Pycharm 新建项目 learnscrapy 和对应的虚拟环境，安装好 Scrapy 和 PyMysql，执行 scrapy startproject learnscrapy 新建一个 scrapy 项目，搭建环境的具体步骤就不详细说了，项目也开源到了 Github 上，地址在这。开始前
复制链接

扫一扫