用爬虫保存文章到TXT文件丨Python爬虫实战系列(7)

互联网阿星

已于 2022-05-19 20:25:24 修改

阅读量3k

点赞数 3

文章标签： python 爬虫爬虫案例网络爬虫 bs4案例

于 2022-05-19 17:54:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_68103523/article/details/124868320

版权

本文介绍了如何使用Python爬虫和BeautifulSoup（BS4）库来抓取网页内容并保存到TXT文件。通过分析静态网站的HTML结构，特别是`<a>`标签，提取链接并获取详情页内容。最后展示了一个带有详细注释的爬虫程序示例。

摘要由CSDN通过智能技术生成

📃个人主页：互联网阿星🧐
💬格言：选择有时候会大于努力，但你不努力就没得选
🔥作者简介：大家好我是互联网阿星，和我一起合理使用Python，努力做时间的主人
🏆如果觉得博主的文章还不错的话，请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞

行业资料：PPT模板、简历模板、行业经典书籍PDF
面试题库：历年经典、热乎的大厂面试真题，持续更新中…
学习资料：含Python基础、爬虫、数据分析、算法等学习视频和文档
Tips：以上资料·阿星已备好，取你所需>>戳我，空投直达🪂

阿星文章·目录

前言
用爬虫保存文章到TXT文件
小结

前言

本节通过具体的爬虫程序，演示 BS4 解析库的实际应用。

用爬虫保存文章到TXT文件

爬虫程序目标

在这里插入图片描述

案例简单分析

首先判网站属于静态网站，因此您的主要任务是分析网页元素的组成，然后使用 BS4 提取所需的信息。如下所示：
在这里插入图片描述

图1：网页元素分析

提取到 a 标签是解决本程序的重点，a 标签的页面代码结构如下所示：
在这里插入图片描述

从上述代码可以看出，a 标签包含了目录名称以及详情页的地址链接。那么如何获取 a 标签呢？经过简单分析后可知 a 标签属于 div > ul > li 的子节点，因此可以使用 BS4 的 select() 获取。如下所示：

list_name = soup.select('.book-mulu > ul > li > a')

上述代码的返回值是一个列表，列表中每一个元素都是一个 Tag 对象，类型为 <class 'bs4.element.Tag'>。

下载详情页的 URL 也非常容易获得，它是由发起请求的 URL 与 a 标签的 herf 链接拼接而成。因此通过字符串拼接就可以获取下载详内容页的 URL。
在这里插入图片描述
最后一步是提取具体的内容。通过分析详情页的元素构成可知，我们想要的内容都包含在以下标签中：

<div class="chapter_content"

最低0.47元/天解锁文章

互联网阿星

关注

3
点赞
踩
19

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

互联网阿星 CSDN认证博客专家 CSDN认证企业博客

码龄3年

38: 原创

39万+: 周排名

141万+: 总排名

4万+: 访问

: 等级

748: 积分

65: 粉丝

173: 获赞

105: 评论

413: 收藏

私信

关注

热门文章

最新评论

下篇丨月薪3w还能天天摸鱼？再整10个Python小游戏【附源码】
锐火箭: 博主厉害！
Python爬虫获取tieba公开数据丨Python基础实战系列(3)
邓邓邓呀: 我换一个url地址又可以了[code=python] import time from urllib import parse, request class TiebaSpider(object): # 初始化url属性 def __init__(self): # 定义变量前加self，代表在class 【TiebaSpider】里属于全局变量 self.url = 'https://tieba.baidu.com/f/search/res?isnew=1&kw=&{}' # 1.请求函数，得到页面，传统三步 def get_html(self, url): req = request.Request(url) res = request.urlopen(req) # windows会存在乱码问题，需要使用 gbk解码，并使用ignore忽略不能处理的字节 # linux不会存在上述问题，可以直接使用decode('utf-8')解码 html = res.read().decode('gbk', 'ignore') return html # 2.解析函数，此处代码暂时省略，还没介绍解析模块 def parse_html(self): pass # 3.保存文件函数 def save_html(self, filename, html): with open(filename, 'w') as f: f.write(html) # 4.入口函数 def run(self): name = input("请输入查询内容：") begin = int(input("请输入起始页数：")) stop = int(input("请输入终止页数：")) # 遍历页面数量，range不会取到结尾值，+ 1保证取到指定数字 for i in range(begin, stop + 1): [/code]
Python爬虫获取tieba公开数据丨Python基础实战系列(3)
邓邓邓呀: 报错了
Python爬虫获取tieba公开数据丨Python基础实战系列(3)
邓邓邓呀: UnicodeEncodeError: 'latin-1' codec can't encode characters in position 5-6: ordinal not in range(256)
9个爬虫基础实战汇总+4个专业爬虫练手站推荐
miluk161: 期待博主更多的爬虫实战

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。