基于Scrapy框架的爬虫项目

最新推荐文章于 2022-10-21 15:48:10 发布

czxboys

最新推荐文章于 2022-10-21 15:48:10 发布

阅读量639

点赞数

分类专栏： python爬虫文章标签：爬虫 python 数据挖掘

本文链接：https://blog.csdn.net/czxboys/article/details/122323384

版权

本文介绍了基于Scrapy框架构建爬虫项目的步骤，包括安装Scrapy、创建项目、配置settings.py、定义爬虫行为，以及如何设置爬取目标和处理数据。还分享了个人对XPath的理解和使用技巧。

摘要由CSDN通过智能技术生成

文章目录

基于`Scrapy`框架的爬虫项目

基于`Scrapy`框架的爬虫项目

安装`scrapy`

先安装scrapy框架，安装完再进行爬虫项目的创建

> pip install scrapy

安装完验证是否安装成功的指令

> scrapy version

这时会出现scrapy的版本号，出现如下版本号即代表scrapy环境安装成功。

Scrapy 2.5.1

创建`scrapy`爬虫项目

输入以下指令进行项目的新建以及项目初始化

> scrapy startproject scrapyTest
New Scrapy project 'scrapyTest', using template directory 'd:\programdata\anaconda3\lib\site-packages\scrapy\templates\project', created in:
    E:\Learning\pythonProject\scrapyTest

You can start your first spider with:
    cd scrapyTest
    scrapy genspider example example.com

> cd scrapyTest
> cd scrapyTest
> cd spiders
> scrapy genspider test_spider https://www.bilibili.com/
Created spider 'test_spider' using template 'basic' in module:
  scrapyTest.spiders.test_spider

至此，项目初始化完成。项目目录如下

项目目录

`settings.py`的配置

fake-useragent对频繁更换UserAgent提供了很好的支持，而UserAgent是识别浏览器的一串字符串，相当于浏览器的身份证，在利用爬虫爬取网站数据时，频繁更换UserAgent可以避免触发相应的反爬机制，所以我们先安装fake-useragent。

> pip install fake-useragent

打开settings.py，添加如下代码

from fake_useragent import UserAgent
USER_AGENT = UserAgent().random # 生成随机请求头
LOG_LEVEL = 'ERROR'  # 只打印error级别的日志
ROBOTSTXT_OBEY = False
COOKIES_ENABLED = False
DOWNLOAD_DELAY = 30