Python scrapy增量爬取实例及实现过程解析

最新推荐文章于 2021-09-19 22:24:14 发布

原创

最新推荐文章于 2021-09-19 22:24:14 发布 · 1.7k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #数据挖掘

本文详细介绍了使用Python Scrapy进行增量爬取的实例和实现步骤，包括环境配置、Scrapy工程目录、XPath选择器的使用以及增量爬虫的原理。通过查询数据库判断是否已抓取数据，避免重复抓取。同时，文章提到了Scrapy的调试方法和工程配置，推荐了学习资源。

这篇文章主要介绍了Python scrapy增量爬取实例及实现过程解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

开始接触爬虫的时候还是初学Python的那会，用的还是request、bs4、pandas，再后面接触scrapy做个一两个爬虫，觉得还是框架好，可惜都没有记录都忘记了，现在做推荐系统需要爬取一定的文章，所以又把scrapy捡起来。趁着这次机会做一个记录。

目录如下：

环境
本地窗口调试命令
工程目录
xpath选择器
一个简单的增量爬虫示例
配置介绍
环境

自己的环境下安装scrapy肯定用anaconda（再次强调anaconda的优越性

本地窗口调试与运行
开发的时候可以利用scrapy自带的调试功能进行模拟请求，这样request、response都会与后面代码保持一样。

# 测试请求某网站
scrapy shell URL
# 设置请求头
scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0" URL
 
# 指定爬虫内容输出文件格式（json、csv等
scrapy crawl SPIDER_NAME -o FILE_NAME.csv
 
# 创建爬虫工程
scrapy startproject articles # 在当前目录创建一个scrapy工程

新工程结构介绍

# spiders文件下存放所有爬虫，item.py格式化数据输出
# middlewares.py 设置请求细节（请求头之类的），pipelines.py为数据输出的管道，每一个封装好的item都会经过这里
# settings.py 对工程进行全局设置（存放配置
├── articles
│  ├── articles
│  │  ├── __init__.py
│  │  ├── items.py
│  │  ├── m

最低0.47元/天解锁文章