基于Scrapy框架的爬虫项目

本文介绍了基于Scrapy框架构建爬虫项目的步骤,包括安装Scrapy、创建项目、配置settings.py、定义爬虫行为,以及如何设置爬取目标和处理数据。还分享了个人对XPath的理解和使用技巧。
摘要由CSDN通过智能技术生成

基于Scrapy框架的爬虫项目

安装scrapy

先安装scrapy框架,安装完再进行爬虫项目的创建

> pip install scrapy

安装完验证是否安装成功的指令

> scrapy version

这时会出现scrapy的版本号,出现如下版本号即代表scrapy环境安装成功。

Scrapy 2.5.1 

创建scrapy爬虫项目

输入以下指令进行项目的新建以及项目初始化

> scrapy startproject scrapyTest
New Scrapy project 'scrapyTest', using template directory 'd:\programdata\anaconda3\lib\site-packages\scrapy\templates\project', created in:
    E:\Learning\pythonProject\scrapyTest

You can start your first spider with:
    cd scrapyTest
    scrapy genspider example example.com

> cd scrapyTest
> cd scrapyTest
> cd spiders
> scrapy genspider test_spider https://www.bilibili.com/
Created spider 'test_spider' using template 'basic' in module:
  scrapyTest.spiders.test_spider

至此,项目初始化完成。项目目录如下

项目目录


settings.py的配置

fake-useragent对频繁更换UserAgent提供了很好的支持,而UserAgent是识别浏览器的一串字符串,相当于浏览器的身份证,在利用爬虫爬 取网站数据时,频繁更换UserAgent可以避免触发相应的反爬机制,所以我们先安装fake-useragent

> pip install fake-useragent

打开settings.py,添加如下代码

from fake_useragent import UserAgent
USER_AGENT = UserAgent().random # 生成随机请求头
LOG_LEVEL = 'ERROR'  # 只打印error级别的日志
ROBOTSTXT_OBEY = False
COOKIES_ENABLED = False
DOWNLOAD_DELAY = 30

注:或者找到这些注释将其注释去掉,没有的则补上

ROBOTSTXT_OBEY = TrueTrue改为False,表示不遵循 Robot协议;并将ITEM_PIPELINES的注释去掉,开启爬虫管道;

COOKIES_ENABLED = False的注释去掉,

COOKIES_ENABLED是注释的时候scrapy默认没有开启cookie

COOKIES_ENABLED没有注释,设置为False的时候scrapy默认使用了settings里面的cookie

COOKIES_ENABLED设置为True的时候scrapy就会把settingscookie关掉,使用自定义cookie

要设置cookie的话&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

czxboys

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值