[Python实战项目] - xpath 爬虫实战,获取纵横小说网连载小说最新章节(一)

本教程使用Python的requests、lxml库,结合Chrome的xpath,实现一键获取纵横中文网连载小说最新章节。通过分析网页结构,识别免费与VIP小说的URL模式,并编写下载器、解析器、输出器来处理不同情况。源代码已上传至GitHub。
摘要由CSDN通过智能技术生成

本教程可以一键获取连载小说最新章节,只需要运行一下代码,直接打开浏览器看小说未看的最新章节

#开发环境

  • Python版本: python3.6
  • Python第三方库:requests、lxml、webbrowser
  • Pycharm软件版本:pycharm 2017.1.3
  • 电脑系统:Windows 10 64位系统
  • 浏览器: Chrome 59.0.3071.86

本文的源码在github上:https://github.com/lanhaixuan/Novel-latestchapter

本项目的目的:一键获取纵横中文网未看的连载小说章节

#开始实战
创建一个爬虫项目
这里写图片描述

#分析网站

  • 分析网页界面
  • 分析网页结构
  • 分析网页原代码

1.分析网页界面

这里写图片描述

在纵横中文网首页,我们需要通过搜索栏查看想看的小说

##2.分析网页结构

但我们点击浏览时,我们会发现网页网址有规律,这是我们找到的规律:

  1. 搜索的内容是红色显示的
  2. 当我们收入正确的小说名时,第一条就是我们想要的数据
  3. all/ 后面是我们输入的值
  4. 当我们点击搜索结果第一条 阅读免费章节 时,网页会跳转到章节目录

这里写图片描述


这里写图片描述

##3.分析网页原代码

  • 分析搜索界面的代码
  • 分析章节界面的代码

我们发现,搜索小说的url格式:

http://search.zongheng.com/search/all/小说/1.html

只需要把小说改成我们要看的小说名就可以

###1.分析搜索结果界面的代码

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值