用爬虫保存文章到TXT文件丨Python爬虫实战系列(7)

本文介绍了如何使用Python爬虫和BeautifulSoup(BS4)库来抓取网页内容并保存到TXT文件。通过分析静态网站的HTML结构,特别是`<a>`标签,提取链接并获取详情页内容。最后展示了一个带有详细注释的爬虫程序示例。
摘要由CSDN通过智能技术生成

📃个人主页:互联网阿星🧐
💬格言:选择有时候会大于努力,但你不努力就没得选
🔥作者简介:大家好我是互联网阿星,和我一起合理使用Python,努力做时间的主人
🏆如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞

在这里插入图片描述

行业资料:PPT模板、简历模板、行业经典书籍PDF
面试题库:历年经典、热乎的大厂面试真题,持续更新中…
学习资料:含Python基础、爬虫、数据分析、算法等学习视频和文档
Tips:以上资料·阿星已备好,取你所需>>戳我,空投直达🪂



前言

本节通过具体的爬虫程序,演示 BS4 解析库的实际应用。

用爬虫保存文章到TXT文件

爬虫程序目标

在这里插入图片描述

案例简单分析

首先判网站属于静态网站,因此您的主要任务是分析网页元素的组成,然后使用 BS4 提取所需的信息。如下所示:
在这里插入图片描述

图1:网页元素分析

提取到 a 标签是解决本程序的重点,a 标签的页面代码结构如下所示:
在这里插入图片描述

从上述代码可以看出,a 标签包含了目录名称以及详情页的地址链接。那么如何获取 a 标签呢?经过简单分析后可知 a 标签属于 div > ul > li 的子节点,因此可以使用 BS4 的 select() 获取。如下所示:

list_name = soup.select('.book-mulu > ul > li > a')

上述代码的返回值是一个列表,列表中每一个元素都是一个 Tag 对象,类型为 <class 'bs4.element.Tag'>

下载详情页的 URL 也非常容易获得,它是由发起请求的 URL 与 a 标签的 herf 链接拼接而成。因此通过字符串拼接就可以获取下载详内容页的 URL。
在这里插入图片描述
最后一步是提取具体的内容。通过分析详情页的元素构成可知,我们想要的内容都包含在以下标签中:

<div class="chapter_content"
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值