漫画爬虫

最新推荐文章于 2024-08-08 14:38:54 发布

炣可

最新推荐文章于 2024-08-08 14:38:54 发布

阅读量3.4k

点赞数 1

分类专栏：爬虫漫画 python

本文链接：https://blog.csdn.net/u011595866/article/details/91380354

版权

本文介绍了如何使用爬虫技术抓取漫画网页的内容，清除无关信息，并将每一话的图片整合到单独的页面上，实现漫画阅读的便捷体验。

摘要由CSDN通过智能技术生成

import requests
import flask
#############################################
def 打开漫画(漫画目录网址):
    目录页面=requests.get(漫画目录网址)
    目录页面.encoding="utf-8"
    目录=[]
    开始关键词='<div class="chapter-body clearfix">'
    a1=目录页面.text.find(开始关键词)+len(开始关键词)
    a=a1
    z=目录页面.text.find('</div>',a)
    print(目录页面.text)
    while a<z and a>=a1:
        b=目录页面.text.find('href="',a)+len('href="')
        c=目录页面.text.find('"',b)
        d=目录页面.text.find('<span>',c)+len('<span>')
        a=目录页面.text.find('<',d)
        print(目录页面.text[b:c],目录页面.text[d:a])
        目录.append([目录页面.text[b:c],目录页面.text[d:a]])
    return 目录
def 打开目录(目录链接):
    目录=[]
    目录页面=requests.get(目录链接)
    目录页面.encoding="utf8"
    开始关键词='按剧情'
    a=目录页面.text.find(开始关键词)+len(开始关键词)
    z=目录页面.text.find('</div',a)
    while a<z and a!=-1:
        b=目录页面.text.find('<li>',a