python爬虫编码问题

最新推荐文章于 2024-07-27 12:20:46 发布

bb_wyw

最新推荐文章于 2024-07-27 12:20:46 发布

阅读量191

点赞数 1

文章标签：网络爬虫 python

本文链接：https://blog.csdn.net/qq_42316492/article/details/125097407

版权

问题描述

当使用requests爬取数据后,打印或者保存下来的数据出现了乱码问题,比如像下面这种情况

这种乱码的数据显然并不是我们需要的,所以我们需要将它转换成正常的中文数据

解决方案：

在对乱码处理的方法中,我们可以引入一个新的模块cchardet来帮助我们完成

首先需要安装一下

pip install cchardet

在对文本进行解码之前可以用cchardet先查看下文本的编码

可以很明显的看到requests对网页的编码判断和cchardet对网页的编码判断明显不一样,经过我的测试,cchardet给出的编码方式是正确的

最后在实际的使用方式,我们可以这样使用

url = "http://www.fuxinmetal.com/aboutus.asp"
response = requests.get(url)
encoding_dict = cchardet.detect(response.content)
response.encoding = encoding_dict["encoding"]

最后可以看看我的输出结果

可以看到中文都能正常显示出来了

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

bb_wyw

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
3
评论
python爬虫编码问题

对于爬取到的网页数据中文乱码的解决方案
复制链接

扫一扫

Python 爬虫数据乱码解决方式

weixin_48826751的博客

03-10

6932

数据乱码大多来自于编码格式不支持中文显示，解决方式主要有如下两个： 1.设置对响应对象的编码格式 2.设置爬取到的数据编码格式及解码格式

python3爬虫的编码问题

fengzhizi76506的博客

03-05

3828

from urllib.request import urlopen textPage = urlopen("https://fengshenfeilian.github.io/") print(textPage.read()) 在非纯英文网页上爬取数据时，总是会出现各种意想不到的乱码。比如上文的代码运行结果含有中文，且所有中文都被替换成乱码。这个问题是因为python默认的把文本读

3 条评论您还未登录，请先登录后发表或查看评论

python爬虫，在response乱码时进行转码的通用格式

西门大盗捉虫专家

07-05

3738

如果print(response.text)出现非utf-8格式时，通过以下方式进行统一的格式转换。def get_html(url): response = requests.get(url) return response.text.encode(response.encoding).decode('utf-8') #response.encoding为原来的编码格式，enc...

python ——网页爬虫乱码以及转码问题

sqiu_11的博客

06-01

3487

前言： Python 3最重要的新特性大概要算是对文本和二进制数据作了更为清晰的区分。文本总是Unicode，由str类型表示，二进制数据则由bytes类型表示。 Python 3不会以任意隐式的方式混用str和bytes，正是这使得两者的区分特别清晰。你不能拼接字符串和字节包，也无法在字节包里搜索字符串（反之亦然），也不能将字符串传入参数为字节包的函数（反

requests和BeautifulSoup中文编码转换心得

qq_39290207的博客

06-24

1494

requests和BeautifulSoup中文编码转换心得最近在自学用python进行网页数据抓取，结果被中文乱码的问题折腾了好久。网上google了各种解决方案都无法解决我遇到的问题，索性自己深入的研究了下，终于把这难题给解决了。在此梳理下整个分析过程。网站&开发工具网站：http://www.jjwxc.net/

python 抓取的网页数据中文以16进制形式显示如“\x54\76”

10-12

5401

python抓取网页数据后,中文字符以16进制显示，返回的数据如下所示 b'[{"name":"\xe8\x8b\xb9\xe6\x9e\x9c\xe5\x9b\xad","pyName":"PGY","pyfName":"PINGGUOYUAN","englishName":null,"transfer":false}]' 这是因为网页一般采用的时‘utf-8’和‘gbk’编码，对返回结

python3 爬虫中的编码问题

LIVEAD的博客

08-21

419

问题1 原网页链接显示： https://baike.baidu.com/item/小肠过敏性紫癜直接抓取报错： url='https://baike.baidu.com/item/小肠过敏性紫癜' urlop=urllib.request.urlopen(url,timeout=100) UnicodeEncodeError: 'ascii' codec can't encode ch...

Python爬虫基于lxml解决数据编码乱码问题

09-16

在Python爬虫开发中，经常会遇到数据编码导致的乱码问题。当爬取网页内容时，如果不正确地处理字符编码，输出的结果可能会显示为奇怪的符号，如"å·²éªè¯ å®å¨ ç¾ç"。这通常是因为网页的...

Python网络爬虫出现乱码问题的解决方法

12-24

在实际的Python爬虫开发中，处理汉字编码问题时，可以采取以下步骤： 1. 使用`chardet`检测网页内容的原始编码。 2. 将原始内容解码为Unicode，即`decode()`操作。 3. 将Unicode内容编码为目标编码，如UTF-8，即`...

Python爬虫下载磁力链接

10-16

Python 爬虫下载磁力链接【知识点详解】 1. 磁力链接（Magnet URI Scheme）磁力链接是一种用于标识资源的链接，它不同于传统的 HTTP 链接，而是以"magnet:"开头，后面跟着一段 base32 编码的字符串。磁力链接的...

python 爬虫学习笔记

03-09

Python 爬虫学习笔记本文将详细介绍 Python 爬虫学习笔记的知识点，涵盖爬虫基础、网络和前端基础、Requests 模块、请求头、GET 和 POST 请求、代理、Cookie 模拟登录、Quote 和 Unquote、登录和获取 Cookie、Post...

Python3爬虫——关于URL中文转码的方法

geeknuo的博客

12-12

7157

在我们进行数据传参访问的时候，HTTP协议的参数通常以键值对的形式出现，多个参数之间用 &分隔，但是如果值是中文或者是其他特殊字符的话，就要对其进行转码，不然可能会产生歧义，我们接下来就来看下如何对中文进行转码： from urllib import parse str = '中国' print(parse.quote(str)) # 对中文进行编码 print(parse....

Python爬虫_乱码、转码

苦涩

10-13

3553

文章目录乱码问题描述利用encode和decode解决乱码问题乱码问题描述在爬取网页时，出现中文乱码情况，如下图：原因：源网页编码和爬取下来后的编码格式不一致利用encode和decode解决乱码问题字符串在python内部的表示是Unicode编码，在做编码转换时，通常需要以Unicode作为中间编码，即先将其他编码的字符串解码（decode）成Unicode，再从Unicode...

get 到的html代码如何转码,爬虫网页转码逻辑

weixin_39723920的博客

07-01

565

爬虫网页转码逻辑最先出现的编码格式是ASCII码，这种编码规则是美国人制定的，大致的规则是用一个字节(8个bit)去表示出现的字符，其实由于在老美的世界里中总共出现的字符也不超过128个，而一个字节能够表示256种字符，所以当时这种编码的方式是没有问题的。后来计算机在全世界普及起来，不同国家的语言都面临着如何在计算机中表示的问题，比如我们的汉字常用的就有几千个，显然最开始一个字节的ASIIC码表示...

Python商业数据挖掘实战——爬取网页并将其转为Markdown