Python-爬取小说文字内容（使用beautiful soup实现）

本文链接：https://blog.csdn.net/sinat_29485667/article/details/79409743

本文介绍了如何使用Python的BeautifulSoup库爬取网络小说，包括BeautifulSoup的基本概念、安装步骤以及爬取单章节和全集小说的详细过程。通过分析网页结构，提取章节链接并爬取内容，最终将文本保存到本地文件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Python-爬取小说文字内容（beautiful soup）

本次爬取的网站为[http://www.136book.com/][6]，你可以在页面选择你想要爬取的小说。
文中代码使用Anaconda的Jupyter书写。

Beautiful Soup简介

官方解释：
Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。
Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。
Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。 —— [ beautiful soup ]

此次实战从网上爬取小说，需要使用到Beautiful Soup。
Beautiful Soup为python的第三方库，可以帮助我们从网页抓取数据。
它主要有如下特点：

1.Beautiful Soup可以从一个HTML或者XML提取数据，它包含了简单的处理、遍历、搜索文档树、修改网页元素等功能。可以通过很简短地代码完成我们地爬虫程序。
2.Beautiful Soup几乎不用考虑编码问题。一般情况下，它可以将输入文档转换为unicode编码，并且以utf-8编码方式输出。

对于本次爬虫任务，只要了解以下几点基础内容就可以完成：
1.Beautiful Soup的对象种类：
Tag
Navigablestring
BeautifulSoup
Comment
2.遍历文档树：find、find_all、find_next和children
3.一点点HTML和CSS知识（没有也将就，现学就可以）