python下载漫画

这篇博客介绍了一个Python脚本,用于从纳米漫画网下载漫画。文章详细阐述了脚本的四个步骤:解析漫画章节列表、解析获取漫画图片、下载漫画图片到本地以及查找漫画。脚本依赖于Python的os、sys、string、getopt、lxml和requests等库,适用于熟悉Python、XPath和HTML的读者。
摘要由CSDN通过智能技术生成

下载漫画的脚本

身为漫画迷,一直想直接将漫画下载到电脑上看,于是就有这个python脚本。

系统:Ubuntu 14.04
python版本:2.7.6
用到的python库有:

  • os (操作系统接口的标准库,用于创建文件)
  • sys (标准库,获取命令行参数)
  • string (字符串操作的标准库,用于将字符串中的数值转换为整型)
  • getopt (对命令行参数进行处理)
  • lxml (当中的html,相当于Jsoup,这里用于快速查找网页的元素)
  • requests (通过URL获取网页)
  • urllib2 (作用和requests差不多)

其中非标准库getopt、lxml、requests、urlslibs可以通过pip安装。

思路:

  1. 选择漫画网站进行解析,显示漫画章节
  2. 选择漫画章节,找到本章漫画图片的路径
  3. 按漫画图片的路径下载到本地保存

要求:了解Python、XPath、URL、html即可。


步骤

1.解析漫画章节列表

以纳米漫画网下的盘龙为例(以前叫国漫吧,很多国漫都能看,我挺喜欢的,不过chromium却显示这网站有毒*=*,注意)
漫画章节

为了方便下载,需要将漫画的每个章节标题和相应的链接记录下来。
查看章节列表的源码,发现章节是用无序列表关联的,查看其中一个章节的XPath,/html/body/div[2]/div[1]/div[2]/div[3]/ul/li[1]/a。但是每个章节的xpath都是不一样的,我们不可能一个一个地计算,这时就要找到它们的共同点。

这里写图片描述

很明显,可以用含class的xpath代替,xpath可以理解为网页元素的标识、位置。
这里用//div[@class=”tab-content tab-content-selected zj_list_con autoHeight”]/ul[@class=”list_con_li autoHeight”]/li代替每个章节,
那么章节标题就是
**//div[@class="tab-content tab-content-selected zj_list_con autoHeight"]/ul[@class="list_con_li autoHeight"]/li/a/span[@class="list_con_zj"]/text()**
章节的链接就是**//div[@class="tab-content tab-content-selected zj_list_con autoHeight"]/ul[@class="list_con_li autoHeight"]/li/a[@href]/@href**

代码如下

#获取漫画的目录
def getIndexLinkFromDirectory(comic_directory_url):
    page = requests.get(comic_directory_url)
    tree = html.fromstring(page.con
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值