爬取古诗词网的诗经全文

本文介绍了如何使用Python爬虫抓取古诗词网站上的诗经全文,包括找到诗名链接、解析内容、存储为CSV文件,以及后续将数据整理进Word的过程。
摘要由CSDN通过智能技术生成

爬取古诗词网的诗经全文

1、基本介绍及爬取


    首先我们看一下古诗词网上诗经的网页是怎么样的一个布局。

在这里插入图片描述


    如图所示,在诗经的网页上,可以看他它的小标题排列的顺序,点进去每个标题既可以看到对应的诗经的文字,那么基本的思路就有了,我们找到现在的网页上的诗经“目录”区域的所有诗名的链接,并把这些链接放置到数组中,然后分别访问这些连接,并获取链接中的我们需要的网页内容。
下面我们分析下诗文的网页是如何布置的。

在这里插入图片描述
    如上图所示,我们可以看到上面的第一个“框”包含了关雎这个小标题的诗文以及年代作者等信息,那么这就说明我们需要爬取的诗文的内容基本上都是在第一个“框”中的,所以我们可以F12来看一下这个框相对于其他框的不同点,然后根据代码获取第一个框的信息。这样子,我们基本上就把诗经中所有的诗文全部爬下来了。

2、存储

    我们在第一节中介绍了爬取诗文的基本思路,但是,以上还都是将数据存储在我们创建的字典或者数组里面,这个时候我们需要写到电脑的文件中,在这里我本人推荐写入到.csv文件中,因为方便后期对数据做改动,毕竟诗文的各种信息,放到文本文件里面就会显得很乱。输出到文件后经过简单的整理,如下图所示。
在这里插入图片描述

3、转到word

    在excel中做好基本的整理后,我们可以通过将其通过邮件合并或者其他方式导入到word中,然后再做一些简单的编辑,我们的诗经小本本就做好了。当然,有设计想法的人可以通过这样子将诗经设计成自己喜好的样子。
在这里插入图片描述


    具体代码如下:

import requests
import pandas as pd
from bs4 import BeautifulSoup
import re

pname = []
u= "https://so.gushiwen.org"
url = "https://so.gushiwen.org/gushi/shijing.aspx"
url_list = []
pintroduction = []
pcontent =[]

def get_herf(url)
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值