简单的爬取网页文本

祀安

已于 2024-01-17 12:16:32 修改

阅读量584

点赞数 10

文章标签： python 开发语言

于 2024-01-17 12:14:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_52718978/article/details/135646863

版权

本文介绍了如何通过Python的requests库发送HTTP请求，结合chardet库检测网页内容的编码，然后使用BeautifulSoup解析HTML以解决网页爬取时遇到的乱码问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

想爬取网页文本数据，结果发现获取的网页是乱码，这里通过导入chardet来检索网页文本的编码

1.引入库

代码如下（示例）：

import requests
from bs4 import BeautifulSoup
import chardet

2.具体实现

代码如下（示例）：

def get_webpage_text(url):
    try:
        # 发送 HTTP 请求获取网页内容
        response = requests.get(url)
        response.raise_for_status()  # 如果请求不成功，抛出异常

        # 使用 chardet 检测编码
        encoding = chardet.detect(response.content)['encoding']

        # 使用 BeautifulSoup 解析 HTML
        soup = BeautifulSoup(response.content, 'html.parser', from_encoding=encoding)

        # 获取网页的文本内容
        text = soup.get_text()

        return text
    except requests.exceptions.RequestException as e:
        print(f"Error: {e}")
        return None


# 替换为你要爬取的网页的 URL
url_to_scrape = "http://***.html"

# 调用函数获取文本内容
webpage_text = get_webpage_text(url_to_scrape)

# 打印文本内容
if webpage_text:
    print(webpage_text)

总结

一般乱码都是因为编码错误或者加密的原因，可以尝试多种方法来解决。

博客等级

码龄5年

3
原创

84
点赞

70
收藏

52
粉丝

关注

私信

热门文章

下一篇：: 论文KNOWLEDGE CARD阅读笔记

最新评论

论文阅读笔记：AGIEval
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文KNOWLEDGE CARD阅读笔记
CSDN-Ada助手: 非常棒的博文！看到你对Knowledge Card这篇论文进行了深入的阅读和笔记，真是让人佩服！希望你可以继续分享更多你的阅读心得和笔记，让更多人受益。另外，关于Knowledge Card这篇论文的内容，我想分享一些扩展知识。除了对论文进行翻译和阅读笔记外，如果你能够进一步尝试复现论文中的实验结果，并对其进行分析和讨论，相信会对你深入理解该领域的知识有所帮助。当然，这只是我个人的一点建议，希望能够对你有所启发。期待你未来更多的精彩分享！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。