爬取唐诗

最新推荐文章于 2023-12-02 17:19:12 发布

weixin_33862188

最新推荐文章于 2023-12-02 17:19:12 发布

阅读量906

点赞数

文章标签：爬虫 python

原文链接：http://www.cnblogs.com/freeman818/p/7143438.html

版权

本文介绍如何使用Python爬虫技术抓取唐诗三百首网站的数据。通过分析网页结构，提取古诗的标题和链接，最终获取古诗内容。虽然这次爬虫编写简单，但单线程效率较低，作者提出后续将使用Scrapy框架进行重构，以提高爬取速度。

摘要由CSDN通过智能技术生成

首先我们打开唐诗三百首网页

1 http://www.gushiwen.org/gushi/tangshi.aspx

目标分析：

1、爬取网页七大板块：五言绝句，七言绝句，五言律诗，七言律诗，五言古诗，七言古诗，乐府。
2、爬取每个板块的所有古诗。
3、爬取每个古诗词内容。

网页详情如下：

我们很容易就能发现，每一个分类都是包裹在：

1 <div  id="guwencont2">

这种调理清晰的网站，大大方便了我们爬虫的编写。

下面是每个板块标题的特征

1 <div>  
2     <span style="margin-left:10px;">五言绝句</span>
3 </div>

下面是每个板块的特征，很明显每首古诗的标题、链接的后半部分都存放在<a>标签里面。

<div id="guwencont2" style="height:248px;" class="guwencont2">
<a href="/GuShiWen_e57030b42c.aspx" target="_blank">行宫(元稹)</a>
<a href="/GuShiWen_62214a2b00.aspx" target="_blank">登鹳雀楼(王之涣)</a>
<a href="/GuShiWen_7fe57a613a.aspx" target="_blank">新嫁娘词(王建)</a>
<a href="/GuShiWen_f4bcd5f606.aspx" target="_blank">相思(王维)</a>
<a href="/GuShiWen_e731c3242e.aspx" target="_blank">杂诗(王维)</a>
<a href="/GuShiWen_465b5b1b4a.aspx" target="_blank">鹿柴(王维)</a>
<a href="/GuShiWen_2bb615bbd9.aspx" target="_blank">竹里馆(王维)</a>
<a href="/GuShiWen_e788e9