首先我们打开唐诗三百首网页
1 http://www.gushiwen.org/gushi/tangshi.aspx
目标分析:
1、爬取网页七大板块:五言绝句,七言绝句,五言律诗,七言律诗,五言古诗,七言古诗,乐府。 2、爬取每个板块的所有古诗。 3、爬取每个古诗词内容。
网页详情如下:
我们很容易就能发现,每一个分类都是包裹在:
1 <div id="guwencont2">
这种调理清晰的网站,大大方便了我们爬虫的编写。
下面是每个板块标题的特征
1 <div> 2 <span style="margin-left:10px;">五言绝句</span> 3 </div>
下面是每个板块的特征,很明显每首古诗的标题、链接的后半部分都存放在<a>标签里面。
<div id="guwencont2" style="height:248px;" class="guwencont2"> <a href="/GuShiWen_e57030b42c.aspx" target="_blank">行宫(元稹)</a> <a href="/GuShiWen_62214a2b00.aspx" target="_blank">登鹳雀楼(王之涣)</a> <a href="/GuShiWen_7fe57a613a.aspx" target="_blank">新嫁娘词(王建)</a> <a href="/GuShiWen_f4bcd5f606.aspx" target="_blank">相思(王维)</a> <a href="/GuShiWen_e731c3242e.aspx" target="_blank">杂诗(王维)</a> <a href="/GuShiWen_465b5b1b4a.aspx" target="_blank">鹿柴(王维)</a> <a href="/GuShiWen_2bb615bbd9.aspx" target="_blank">竹里馆(王维)</a> <a href="/GuShiWen_e788e9