python 多线程爬取网络小说

作为一名喜欢看网络小说的程序员,得学会自力更生,这里编写了一个网络爬虫,爬取网络小说,分享一下,抛砖引玉

主要逻辑:

1.先从目录页,爬取所有目录名称与URL,此时可能会有重复目录章节,所以代码里面加了目录去重

2.目录爬取成功之后,拉起多线程,去爬取每章节内容,并保存在D盘Book目录下

3.最后,将所有章节拼接起来,整理格式,合并成一本电子书

 

参数:

本脚本对小说网站笔趣阁适配较好,遇到网页结构差别太大的,可能不适配

1.url1 为小说目录URL

2.url2 拼接章节url用。有时候,根据目录获取到的URL只有后半段,此时需要设置url2,与章节半截url拼在一起做成完整url,如果章节URL是完整的,则不需要

3.start 从第几章开始爬取,有时候不想要全本,只需要后面几章,可以设置从第n章开始

4.thread_num 线程数,拉起多少个线程来爬取小说。小说网页资源不是很好,所以使用多线程能大大提高效率

 

爬取成功,小说如下,从此再也不用花钱看小说了

完整代码如下,python2.7版本编写,python3跑起来会有不兼容

#coding=utf-8
import requests
from pyquery import PyQuery as pq
import threading
import time
import Queue
import os
import re

user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
h
  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

风之独行者

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值