写在前面
曾经,我们都有梦,关于文学,关于爱情,关于一场穿越世界的旅行,如今我们深夜饮酒,杯子碰在一起,都是梦破碎的声音
曾经,面对诗文如痴如醉,而如今,已漠眼阑珊,风起云涌不再,呜呼哀哉,索一首诗篇以慰藉烁烁华年
卷一
前几日,发现古诗文网站,如获至宝,便被一时私念驱使,将其中的诗文一栏文章全部爬下来了。此一文以记之。
卷二
爬取整个过程如偷盗一般,条理清晰,速战速决。且听细细道来。
- 首先获取诗文一栏所有标签的URL,然后进入标签中,获取所有诗文详情页的URL
- 爬取每个详情页中的详细的、喜欢的信息,如:题目,作者,内容
- 将获取到的信息保存到数据库中
卷三
导入有用的包
#请求包
import requests
#解析网页的包
from lxml import etree
#导入数据库的类,该类在另一个文件中实现,后面会有
from write_database import Write_databases
类的构造函数
class GuShiWen():
def __init__(self):
self.main_url = 'https://www.gushiwen.org/'
self.headers = {
'User-