一. 概要
1.通过python爬虫循环爬取古诗词网站唐诗宋词
2.落地到本地数据库
二. 页面分析
首先通过firedebug进行页面定位:

其次源码定位:

最终生成lxml etree定位div标签源码:
# 通过 lxml进行页面分析
response = etree.HTML(data)
# div层定位
for row in response.xpath('//div[@class="left"]/div[@class="sons"]'):
# 标题定位
title = row.xpath('div[@class="cont"]/p/a/b/text()')[0] if row.xpath('div[@class="cont"]/p/a/b/text()') else &

本文介绍了一个Python爬虫项目,用于抓取古诗词网站上的唐诗宋词,内容包括诗词的标题、朝代、作者、内容和标签,并将数据存储到本地数据库。文章详细讲解了页面分析和数据定位的方法。
最低0.47元/天 解锁文章


被折叠的 条评论
为什么被折叠?



