python爬取重名div_第6天 | 10天搞定Python网络爬虫,爬盗墓笔记,牛

本文介绍了使用Python网络爬虫爬取免费小说《盗墓笔记》的过程,包括目标设定、HTML节点定位及内容提取。通过解析网页源代码,获取书名、章节名称和内容,并将内容保存为TXT文件。章节标题作为文件夹,章节内容作为TXT文件名。还提到了爬取时的策略,如模拟真人行为避免被识别为爬虫。
摘要由CSDN通过智能技术生成

前几天,有老铁留言说能不能VIP小说?-我回复说他是"坏人",因为我觉得他不尊重别人的劳动成果,如果是免费的,我倒可以考虑。

于是,我上网找呀找,搜呀搜,看有没有免费版,而且是大家都喜欢看的免费小说,爬下来,放在手机上看。经过终于让我找到了近几年特别火的、免费版的《盗墓笔记》。

6.1 爬取目标

用Chrome浏览器,打开http://seputu.com网址的那一刻,小伙伴们都惊呆了,第1部到第8部都有。爬取内容:把书名,章节名称,章节链接抽取出来,同时将每个文章的内容提取出来,保存成txt文件。将书名作为文件夹名称,将章节名称作为txt文件名。

61a72bd841b42f20f03a6c09b098b895.png

6.2 节点定位

用F12查看源代码,你会发现htm的页面l结构非常分明,书名的html节点是// div[ @ class = "mulu-title"] / center / h2里面,章节节点的内容(章节名称和链接)是// div[ @ class = "box"] / ul标签中。Xpath规则挺简单的。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值