Python爬取实战（一）：爬取网络小说

最新推荐文章于 2024-08-21 21:05:18 发布

春风少年青衫薄

最新推荐文章于 2024-08-21 21:05:18 发布

阅读量1.4k

点赞数 2

文章标签： python 正则表达式爬虫

本文链接：https://blog.csdn.net/qq_43660588/article/details/105156287

版权

本文介绍如何使用Python爬虫抓取网络小说，通过分析网页结构，利用正则表达式提取章节链接，结合requests和BeautifulSoup库获取章节内容并存储到txt文件。内容包括获取请求头、解析HTML、正则表达式查找链接等关键步骤。

摘要由CSDN通过智能技术生成

———————本文仅用于技术交流，支持正版—————————

爬虫学到了一丢丢，就开始了实战之旅，第一次实战，来点简单的，我们来爬一本小说。
在这里插入图片描述

对网页结构进行分析

网上随便找了本小说，按下我们最热爱的F12，打开开发者工具，按下图所示操作。
在这里插入图片描述
点击开发者工具左上角的小箭头，鼠标指向章节链接的位置，不要点击！开发者工具就会自动显示这一部分所对应的源代码，我们能发现每个章节的链接都是在a标签。我们就可以用正则表达式将每个章节的链接都找出来。

而每一章节的内容是这样的：
在这里插入图片描述
我们再查看网页的源代码，如下图：

在这里插入图片描述
发现不仅有我们所需要的小说内容，还有一些无用的script。之后还需要处理。

获取网页的请求头

在这里插入图片描述
我们以这个章节目录为例，打开开发者工具，点击Network，会出现如图所示界面，若没有，刷新一下即可。然后点击3392/，而我们所需要的在Request Headers里。将该目录下的信息提取，存放到字典中，其中最重要的是User-Agent，仅将其存放到我们的headers字典中也行，其代表了我们的身份信息，浏览器的User-Agent一般都有Mozilla/5.0。

headers = {
   
			"user-agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36"
		  }

所需要的库文件

requests：用于get请求
bs4：网页解析
re：正则表达式
os：系统相关操作
time：获取时间
random：得到一个随机数

import requests, re, os, time, random
from bs4 import BeautifulSoup

获得章节目录的链接

url = "https://www.boquge.com/book/3392/"
headers = {
   
            "user-agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36"
          }

try:
    r = requests.get(url, headers=headers)
    #get请求的状态，get失败会报错
    r.raise_for_status()
    #修改get到的编码
    r.encoding = r.apparent_encoding
except:
    print("爬取失败")

#用正则表达式获取每一章节的url
urls = re.findall('<li ><a href="(.*?)">.*?</a></li>', r.text