一. 概要
1.通过python爬虫循环爬取古诗词网站唐诗宋词
2.落地到本地数据库
二. 页面分析
首先通过firedebug进行页面定位:
其次源码定位:
最终生成lxml etree定位div标签源码:
# 通过 lxml进行页面分析
response = etree.HTML(data)
# div层定位
for row in response.xpath('//div[@class="left"]/div[@class="sons"]'):
# 标题定位
title = row.xpath('div[@class="cont"]/p/a/b/text()')[0] if row.xpath('div[@class="cont"