Python-爬取小说文字内容(使用beautiful soup实现)

本文介绍了如何使用Python的BeautifulSoup库爬取网络小说,包括BeautifulSoup的基本概念、安装步骤以及爬取单章节和全集小说的详细过程。通过分析网页结构,提取章节链接并爬取内容,最终将文本保存到本地文件。
摘要由CSDN通过智能技术生成

Python-爬取小说文字内容(beautiful soup)

本次爬取的网站为[http://www.136book.com/][6],你可以在页面选择你想要爬取的小说。
文中代码使用Anaconda的Jupyter书写。

Beautiful Soup简介

官方解释:
Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。
Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。
Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。 —— [ beautiful soup ]

此次实战从网上爬取小说,需要使用到Beautiful Soup。
Beautiful Soup为python的第三方库,可以帮助我们从网页抓取数据。
它主要有如下特点:

1.Beautiful Soup可以从一个HTML或者XML提取数据,它包含了简单的处理、遍历、搜索文档树、修改网页元素等功能。可以通过很简短地代码完成我们地爬虫程序。
2.Beautiful Soup几乎不用考虑编码问题。一般情况下,它可以将输入文档转换为unicode编码,并且以utf-8编码方式输出。

对于本次爬虫任务,只要了解以下几点基础内容就可以完成:
1.Beautiful Soup的对象种类:
Tag
Navigablestring
BeautifulSoup
Comment
2.遍历文档树:find、find_all、find_next和children
3.一点点HTML和CSS知识(没有也将就,现学就可以)

Beautiful Soup安装

在Anaconda Prompt中输入:

pip install beautifulsoup4

安装beautiful soup。

使用python代码爬取

1.爬取思路分析

打开目录页,可以看到章节目录,想要爬取小说的内容,就要找到每个目录对应的url,并且爬取其中的正文内容,然后将正文内容取出来,放在本地文件中。这里选取《芈月传》作为示例。http://www.136book.com/mieyuechuanheji/

按F12查看网页的审查元素菜单,选择左上角[箭头]的标志,

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值