Python爬取的网页，需要解码怎么办

写python的鑫哥

已于 2022-12-02 15:42:53 修改

阅读量1.2k

点赞数 1

分类专栏：爬虫实战进阶文章标签：爬虫 python 解码

于 2022-12-02 15:26:57 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Leexin_love_Ling/article/details/128147526

版权

爬虫实战进阶专栏收录该内容

70 篇文章 259 订阅 ¥39.90 ¥99.00

订阅专栏

本文介绍了在Python爬虫中遇到以u开头的特殊字符时的解码问题。通过案例分析2022卡塔尔世界杯球员榜，提出两种解码方法：直接使用unicode字符串和编码后再解码，帮助读者解决爬取数据的解码难题。

摘要由CSDN通过智能技术生成

前言

本文是该专栏的第26篇，后面会持续分享python的爬虫干货知识，记得关注。

很多时候，在用爬虫采集数据的时候，采集到的源码内容并非我们想要的正确信息，使用正则或者Xpath匹配到的信息也需要我们再次解码才能拿到精准的数据。最近也正是球迷朋友们非常关注卡塔尔世界杯的时候，那直接以世界杯数据为例进行分析，如下：

如上面看到的情况，目标数据找到了，但却是一些以\u开头的特殊字符，需要怎么解决呢？

废话不多话，跟着笔者直接往下深入探讨。

正文

案例：2022卡塔尔世界杯球员榜

需求：解决目标数据解码的问题

打开目标网站并点击刷新࿰

了解本专栏

写python的鑫哥

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python爬取的网页，需要解码怎么办

打开目标网站并没有刷新，右侧开发者工具并没有看到可疑url，不过以此点击射手榜，助攻榜等等，url后面的current紧跟着一个变化的数字，初步判断每个榜单的url带一个数字id即可，这里就不详述了，本文的目标毕竟是要解决解码的事情。很多时候，在用爬虫采集数据的时候，采集到的源码内容并非我们想要的正确信息，使用正则或者Xpath匹配到的信息也需要我们再次解码才能拿到精准的数据。本文是该专栏的第26篇，后面会持续分享python的爬虫干货知识，记得关注。如上面看到的情况，目标数据找到了，但却是一些以
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

写python的鑫哥 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。