【爬虫练手小demo】爬取古诗词

本文介绍了一个使用Python爬虫抓取古诗词的实践案例,重点关注如何按照‘爱情’、‘春天’等分类爬取。通过观察HTML结构,利用XPath选择器获取每个诗词的链接、朝代、诗人及内容。对于不同格式的内容,采取了针对性的解析策略。最终,爬取结果被保存为CSV文件。
摘要由CSDN通过智能技术生成

爬取的网站链接为 base_url= https://www.gushiwen.org/

想按照页面右边栏的各个分类进行爬取,例如“春天”,“夏天”,“爱情”,“爱国”等。

拿“爱情”类别举例,点进去发现链接变为 https://so.gushiwen.org/gushi/aiqing.aspx

ctrl+shift+I   观察html页面结构   发现每个诗的链接都藏在<div class="typecont">下,通过xpath很容易获取链接。

base_url 加上这里<a href>后面的链接即可找到诗词所在页面:

同样的道理获取朝代、诗人、内容。

获取内容时要注意,有的格式为<div> 文本</div>,但是有的格式为<div> <p>文本</p> </div>

所以要先获取到上一级之后 再用 .xpath("string(.)")。 全部代码如下:


                
  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值