实战：用python爬取全本小说

最新推荐文章于 2024-06-28 10:41:11 发布

张箫剑

最新推荐文章于 2024-06-28 10:41:11 发布

阅读量448

点赞数 4

文章标签： python 开发语言

本文链接：https://blog.csdn.net/2302_76696304/article/details/136214598

版权

本文介绍了一次使用Python爬取全本小说的实战过程，包括声明仅作学习用途，爬取目标，安装requests和BeautifulSoup库，通过获取目录页获取章节链接，逐章爬取正文，并将内容保存到文件中。详细步骤和代码示例提供。

摘要由CSDN通过智能技术生成

一、声明

本次爬取仅作为学习练习使用，如有冒犯请联系删除

练习目标

爬取网站中的小说并存起来
思路

1. 爬取目录页，得到所有章节的链接地址
1. 一次爬取每章小说的正文

二、准备工作

安装第三方库

requests
BeautifulSoup

详情可以我的另一篇: 第四篇：python网络爬虫

三、实战演练

首先导入 requests和BeautifulSoup模块

import requests
from bs4 import BeautifulSoup

以爬取89文学网为例：
!](https://img-blog.csdnimg.cn/direct/93db06420a2441b9bde179d5a4016cc2.png)
红色框起来的就是目标url

定义方法,传入目标url：

def get_novel_chapters():
	root_url = "http://www.89wxw.cc/16/16705/"
	r = requests.get(root_url)
	r.encoding = "gbk"
	soup = BeautifulSoup(r.text,"html.parser")
	# 用于储存 文章url 以及对应的 文章名
	data = []
	# 因为所需的url都在dd标签内
	for dd in soup.fin_all("dd")
		link = dd