python 多线程爬取网络小说

最新推荐文章于 2024-06-19 18:03:00 发布

风之独行者

最新推荐文章于 2024-06-19 18:03:00 发布

阅读量1.7k

点赞数 3

文章标签： python

本文链接：https://blog.csdn.net/baidu_32432903/article/details/106301133

版权

作为一名喜欢看网络小说的程序员，得学会自力更生，这里编写了一个网络爬虫，爬取网络小说，分享一下，抛砖引玉

主要逻辑：

1.先从目录页，爬取所有目录名称与URL，此时可能会有重复目录章节，所以代码里面加了目录去重

2.目录爬取成功之后，拉起多线程，去爬取每章节内容，并保存在D盘Book目录下

3.最后，将所有章节拼接起来，整理格式，合并成一本电子书

参数：

本脚本对小说网站笔趣阁适配较好，遇到网页结构差别太大的，可能不适配

1.url1 为小说目录URL

2.url2 拼接章节url用。有时候，根据目录获取到的URL只有后半段，此时需要设置url2，与章节半截url拼在一起做成完整url，如果章节URL是完整的，则不需要

3.start 从第几章开始爬取，有时候不想要全本，只需要后面几章，可以设置从第n章开始

4.thread_num 线程数，拉起多少个线程来爬取小说。小说网页资源不是很好，所以使用多线程能大大提高效率

爬取成功，小说如下，从此再也不用花钱看小说了

完整代码如下，python2.7版本编写，python3跑起来会有不兼容

#coding=utf-8
import requests
from pyquery import PyQuery as pq
import threading
import time
import Queue
import os
import re

user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
h

最低0.47元/天解锁文章

风之独行者

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
2
评论
python 多线程爬取网络小说

作为一名喜欢看网络小说的程序员，得学会自力更生，这里编写了一个网络爬虫，爬取网络小说，分享一下，抛砖引玉主要逻辑：1.先从目录页，爬取所有目录名称与URL，此时可能会有重复目录章节，所以代码里面加了目录去重2.目录爬取成功之后，拉起多线程，去爬取每章节内容，并保存在D盘Book目录下3.最后，将所有章节拼接起来，整理格式，合并成一本电子书参数：本脚本对小说网站笔趣阁适配较好，遇到网页结构差别太大的，可能不适配1.url1 为小说目录URL2.url2 拼接章节url用。.
复制链接

扫一扫