Python 之 Http 获取网页的 html 数据，并去掉 html 格式等相关信息

仙魁XAN

于 2023-08-13 12:50:05 发布

阅读量1.3k

点赞数

分类专栏： python 文章标签： python html BeautifulSoup 去除html格式 requests

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014361280/article/details/132258390

版权

python 专栏收录该内容

67 篇文章 41 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了使用Python的requests和BeautifulSoup库获取并清理网页HTML数据的步骤，包括设置User-Agent、移除<script>标签及多余空格，以用于GPT处理。

摘要由CSDN通过智能技术生成

Python之 Http 获取网页的 html 数据，并去掉 html 格式等相关信息

目录

Python之 Http 获取网页的 html 数据，并去掉 html 格式等相关信息

一、简单介绍

二、实现原理

三、注意事项

四、效果预览

五、关键代码

一、简单介绍

本节简单介绍在 Python开发中的，使用 requests ，获取指定网页的相关信息，然后使用 BeautifulSoup 进行数据清洗，去掉html 格式，以及标签，函数，多余的空格等信息，仅留下和网页显示差不多的文字信息，为什么这么做呢，其实，这里一个使用场景：是把网页数据喂给GPT，然后让 GPT 进行处理总结；如果你有新的方式也可以留言，多谢。

二、实现原理

1、requests 获取指定网

了解本专栏

超级会员免费看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python 之 Http 获取网页的 html 数据，并去掉 html 格式等相关信息

本节简单介绍在 Python开发中的，使用 requests ，获取指定网页的相关信息，然后使用 BeautifulSoup 进行数据清洗，去掉html 格式，以及标签，函数，多余的空格等信息，仅留下和网页显示差不多的文字信息，为什么这么做呢，其实，这里一个使用场景：是把网页数据喂给GPT，然后让 GPT 进行处理总结；如果你有新的方式也可以留言，多谢。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

仙魁XAN 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。