刚学Python爬虫不久,迫不及待的找了一个网站练手,新笔趣阁:一个小说网站。
前提准备
安装Python以及必要的模块(requests,bs4),不了解requests和bs4的同学可以去官网看个大概之后再回来看教程
爬虫思路
刚开始写爬虫的小白都有一个疑问,进行到什么时候爬虫还会结束呢?答案是:爬虫是在模拟真人在操作,所以当页面中的next链接不存在的时候,就是爬虫结束的时候。
1.用一个queue来存储需要爬虫的链接,每次都从queue中取出一个链接,如果queue为空,则程序结束
2.requests发出请求,bs4解析响应的页面,提取有用的信息,将next的链接存入queue
3.用os来写入txt文件
具体代码
需要把域名和爬取网站对应的ip 写入host文件中,这样可以跳过DNS解析,不这样的话,代码运行一段时间会卡住不动
'''
抓取新笔趣阁https://www.xbiquge6.com/单个小说
爬虫线路: requests - bs4 - txt
Python版本: 3.7
OS: windows 10
'''
import requests
import time
import sys
import os
import queue
from bs4 import BeautifulSoup
# 用一个队列保存url

这篇博客介绍了使用Python3的requests和BeautifulSoup4库爬取小说网站新笔趣阁的数据。通过建立一个队列保存URL,发送请求获取内容,解析HTML提取章节和内容,然后保存到TXT文件。当没有更多章节链接时,爬虫结束。整个过程耗时约1个半小时。
最低0.47元/天 解锁文章
312

被折叠的 条评论
为什么被折叠?



