作为一名喜欢看网络小说的程序员,得学会自力更生,这里编写了一个网络爬虫,爬取网络小说,分享一下,抛砖引玉
主要逻辑:
1.先从目录页,爬取所有目录名称与URL,此时可能会有重复目录章节,所以代码里面加了目录去重
2.目录爬取成功之后,拉起多线程,去爬取每章节内容,并保存在D盘Book目录下
3.最后,将所有章节拼接起来,整理格式,合并成一本电子书
参数:
本脚本对小说网站笔趣阁适配较好,遇到网页结构差别太大的,可能不适配
1.url1 为小说目录URL
2.url2 拼接章节url用。有时候,根据目录获取到的URL只有后半段,此时需要设置url2,与章节半截url拼在一起做成完整url,如果章节URL是完整的,则不需要
3.start 从第几章开始爬取,有时候不想要全本,只需要后面几章,可以设置从第n章开始
4.thread_num 线程数,拉起多少个线程来爬取小说。小说网页资源不是很好,所以使用多线程能大大提高效率
爬取成功,小说如下,从此再也不用花钱看小说了
完整代码如下,python2.7版本编写,python3跑起来会有不兼容
#coding=utf-8
import requests
from pyquery import PyQuery as pq
import threading
import time
import Queue
import os
import re
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
h