目标:爬取零点看书网
一本小说
1、爬取小说目录地址
爬取小说地址:https://www.lingdiankanshu.co/258400/
查看网页源代码
小说楔子
在一个id等于list的div下的dl下第二个dt的同级标签dd的a标签里面
用xpath来获取
a_list = html.xpath('//div[@id="list"]/dl/dt[2]/following-sibling::dd/a')
following-sibling :选取当前节点之后的所有同级节点
获取章节地址和章节名
pageUrlName_list = []
dit = {
}
for a in a_list:
dit['pageUrl'] = url + a.xpath('./@href')[0]
dit['pageName'] = a.xpath('./text()')[0]
pageUrlName_list.append(dit.copy())
print(pageUrlName_list)
2、爬取小说内容页
小说内容在一个id等于content的div里面
获取小说内容:
content_list = html.xpath('//div[@id="content"]/text()')
print(content_list)
3、整理爬取的小说
content = '\r\n&#