爬取唐诗

本文介绍如何使用Python爬虫技术抓取唐诗三百首网站的数据。通过分析网页结构,提取古诗的标题和链接,最终获取古诗内容。虽然这次爬虫编写简单,但单线程效率较低,作者提出后续将使用Scrapy框架进行重构,以提高爬取速度。
摘要由CSDN通过智能技术生成

首先我们打开唐诗三百首网页

1 http://www.gushiwen.org/gushi/tangshi.aspx

目标分析:

1、爬取网页七大板块:五言绝句,七言绝句,五言律诗,七言律诗,五言古诗,七言古诗,乐府。
2、爬取每个板块的所有古诗。
3、爬取每个古诗词内容。

网页详情如下:

我们很容易就能发现,每一个分类都是包裹在:

1 <div  id="guwencont2">

这种调理清晰的网站,大大方便了我们爬虫的编写。

 下面是每个板块标题的特征

1 <div>  
2     <span style="margin-left:10px;">五言绝句</span>
3 </div>

 下面是每个板块的特征,很明显每首古诗的标题、链接的后半部分都存放在<a>标签里面。

<div id="guwencont2" style="height:248px;" class="guwencont2">
<a href="/GuShiWen_e57030b42c.aspx" target="_blank">行宫(元稹)</a>
<a href="/GuShiWen_62214a2b00.aspx" target="_blank">登鹳雀楼(王之涣)</a>
<a href="/GuShiWen_7fe57a613a.aspx" target="_blank">新嫁娘词(王建)</a>
<a href="/GuShiWen_f4bcd5f606.aspx" target="_blank">相思(王维)</a>
<a href="/GuShiWen_e731c3242e.aspx" target="_blank">杂诗(王维)</a>
<a href="/GuShiWen_465b5b1b4a.aspx" target="_blank">鹿柴(王维)</a>
<a href="/GuShiWen_2bb615bbd9.aspx" target="_blank">竹里馆(王维)</a>
<a href="/GuShiWen_e788e9
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值