爬取古诗词网的诗经全文

最新推荐文章于 2025-03-03 01:08:06 发布

An_27

最新推荐文章于 2025-03-03 01:08:06 发布

阅读量3.1k

点赞数 3

分类专栏： Python-爬虫文章标签：古诗词爬虫 python requests 诗经

本文链接：https://blog.csdn.net/weixin_43159628/article/details/89312713

版权

本文介绍了如何使用Python爬虫抓取古诗词网站上的诗经全文，包括找到诗名链接、解析内容、存储为CSV文件，以及后续将数据整理进Word的过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、基本介绍及爬取

首先我们看一下古诗词网上诗经的网页是怎么样的一个布局。

在这里插入图片描述

如图所示，在诗经的网页上，可以看他它的小标题排列的顺序，点进去每个标题既可以看到对应的诗经的文字，那么基本的思路就有了，我们找到现在的网页上的诗经“目录”区域的所有诗名的链接，并把这些链接放置到数组中，然后分别访问这些连接，并获取链接中的我们需要的网页内容。
下面我们分析下诗文的网页是如何布置的。

在这里插入图片描述
如上图所示，我们可以看到上面的第一个“框”包含了关雎这个小标题的诗文以及年代作者等信息，那么这就说明我们需要爬取的诗文的内容基本上都是在第一个“框”中的，所以我们可以F12来看一下这个框相对于其他框的不同点，然后根据代码获取第一个框的信息。这样子，我们基本上就把诗经中所有的诗文全部爬下来了。

2、存储

我们在第一节中介绍了爬取诗文的基本思路，但是，以上还都是将数据存储在我们创建的字典或者数组里面，这个时候我们需要写到电脑的文件中，在这里我本人推荐写入到.csv文件中，因为方便后期对数据做改动，毕竟诗文的各种信息，放到文本文件里面就会显得很乱。输出到文件后经过简单的整理，如下图所示。
在这里插入图片描述

3、转到word

在excel中做好基本的整理后，我们可以通过将其通过邮件合并或者其他方式导入到word中，然后再做一些简单的编辑，我们的诗经小本本就做好了。当然，有设计想法的人可以通过这样子将诗经设计成自己喜好的样子。
在这里插入图片描述

具体代码如下：

import requests
import pandas as pd
from bs4 import BeautifulSoup
import re

pname = []
u= "https://so.gushiwen.org"
url = "https://so.gushiwen.org/gushi/shijing.aspx"
url_list = []
pintroduction = []
pcontent =[]

def get_herf(url)

最低0.47元/天解锁文章