python Scrapy项目之古诗文网案例呈现

最新推荐文章于 2024-09-09 00:00:00 发布

m0_67393413

最新推荐文章于 2024-09-09 00:00:00 发布

阅读量172

点赞数

分类专栏：面试学习路线阿里巴巴文章标签： python 爬虫 pycharm

本文链接：https://blog.csdn.net/m0_67393413/article/details/125214003

版权

本文介绍了使用Python Scrapy框架爬取古诗文网诗词数据的完整流程，包括项目创建、全局配置、爬虫程序、数据结构、管道和程序执行。目标是获取诗词的标题、作者、朝代、内容和译文，逐页爬取4页数据。文章详细讲解了settings.py的配置、爬虫程序中解析页面和翻页的逻辑、items.py中定义的数据结构以及pipelines.py中的数据存储处理。

摘要由CSDN通过智能技术生成

python Scrapy项目之古诗文网案例呈现

在这里插入图片描述

需求

通过python,Scrapy框架，爬取古诗文网上的诗词数据，具体包括诗词的标题信息，作者，朝代，诗词内容，及译文。爬取过程需要逐页爬取，共4页。第一页的url为（https://www.gushiwen.cn/default_1.aspx）。

在这里插入图片描述

1. Scrapy项目创建

首先创建Scrapy项目及爬虫程序

在目标目录下，创建一个名为prose的项目：

scrapy startproject prose

进入项目目录下，然后创建一个名为gs的爬虫程序，爬取范围为 gushiwen.cn

cd prose
scrapy genspider gs gushiwen.cn

2. 全局配置 settings.py

对配置文件settings.py做如下编辑：

①选择不遵守robots协议
②下载间隙设置为1
③并添加请求头，启用管道
④此外设置打印等级：LOG_LEVEL=“WARNING”

具体如下：

# Scrapy settings for prose project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
#     https://docs.scrapy.org/

最低0.47元/天解锁文章

m0_67393413

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python Scrapy项目之古诗文网案例呈现

python Scrapy项目之古诗文网案例呈现通过python,Scrapy框架，爬取古诗文网上的诗词数据，具体包括诗词的标题信息，作者，朝代，诗词内容，及译文。爬取过程需要逐页爬取，共4页。第一页的url为（https://www.gushiwen.cn/default_1.aspx）。首先创建Scrapy项目及爬虫程序在目标目录下，创建一个名为prose的项目：进入项目目录下，然后创建一个名为gs的爬虫程序，爬取范围为 gushiwen.cn2. 全局配置 settings.py对配置文件
复制链接

扫一扫