python爬虫中文乱码_Python爬虫的乱码问题？

最新推荐文章于 2023-11-07 17:12:44 发布

weixin_39671935

最新推荐文章于 2023-11-07 17:12:44 发布

阅读量136

点赞数

文章标签： python爬虫中文乱码

问题

使用python实现模拟登陆并爬取返回页面的时候出现了乱码，目标网页的编码使用utf-8

bVL4vu?w=328&h=19

相关代码：

#coding=utf-8

import urllib

import urllib2

headers={

'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

'Accept-Encoding':'gzip, deflate',

'Accept-Language':'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',

'Connection':'keep-alive',

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.73 Safari/537.36'

}

payload={

'_eventId':'submit',

'lt':'_cF2A0EB3F-D044-046C-6F4A-C828DE0ACE8E_k8B4BE5F5-4CAD-375D-0DDC-FB84A18445DF',

'password':'',

'submit':'登录',

'username':''

}

payload=urllib.urlencode(payload)

request = urllib2.Request(posturl, payload, headers)

print request

response = urllib2.urlopen(request)

text = response.read()

print text

控制台输出信息：

bVL4xF?w=1202&h=219

第一次遇见这种乱码比较懵逼

解决方案

urllib2没有处理压缩的问题，你要使用gzip解压，比如这样

from StringIO import StringIO

import gzip

if response.info().get('Content-Encoding') == 'gzip':

buf = StringIO(text)

f = gzip.GzipFile(fileobj=buf)

data = f.read()

总结urllib2比较底层，建议使用requests

扫一扫关注IT屋

微信公众号搜索 “ IT屋 ” ，选择关注与百万开发者在一起

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39671935

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

盘点3种Python网络爬虫过程中的中文乱码的处理方法

这家伙很懒，什么都没有留下

03-06

1322

在处理Python网络爬虫中的中文乱码问题时，我们可以通过指定编码方式、使用第三方库或使用正则表达式等方法来解决。具体选择哪种方法，需要根据实际情况和乱码问题的具体情况来决定。对于新手朋友来说，了解并掌握上述方法，可以帮助他们更好地处理网络爬虫中的中文乱码问题，提高爬虫的稳定性和准确性。同时，也需要注意在爬虫开发过程中遵守相关法律法规和网站的爬虫协议，尊重网站的数据权益。希望本文的内容对新手朋友有所帮助，并能够在网络爬虫的开发过程中遇到中文乱码问题时，能够更加从容地应对和解决。

Python网络爬虫出现乱码问题的解决方法

12-24

在实际的Python爬虫开发中，处理汉字编码问题时，可以采取以下步骤： 1. 使用`chardet`检测网页内容的原始编码。 2. 将原始内容解码为Unicode，即`decode()`操作。 3. 将Unicode内容编码为目标编码，如UTF-8，即`...

参与评论您还未登录，请先登录后发表或查看评论

python中——requests爬虫【中文乱码】的3种解决方法

LHJCSDNYL的博客

07-24

1万+

python中requests爬虫【中文乱码】问题，是最常遇到的问题，对于初学者来说，是很困恼的。本文将详细说明，python中使用requests库编写爬虫程序时，出现【中文乱码】的原因，及常见3种解决办法。

Python 爬虫 中文乱码一文通

HRG520JN的博客

07-27

3981

还在找python中文乱码的解决方法？来跟我学习，一文直接PASS。

Python 爬虫数据乱码解决方式

weixin_48826751的博客

03-10

6973

数据乱码大多来自于编码格式不支持中文显示，解决方式主要有如下两个： 1.设置对响应对象的编码格式 2.设置爬取到的数据编码格式及解码格式

解决Python网页爬虫之中文乱码问题

01-20

最近在学习网页爬虫时就遇到了这样一种问题，中文网站爬取下来的内容往往中文显示乱码。看过我之前博客的同学可能知道，之前爬取的一个学校网页就出现了这个问题，但是当时并没有解决，这着实成了我一个心病。这不，...

Python爬虫基于lxml解决数据编码乱码问题

09-16

在Python爬虫开发中，经常会遇到数据编码导致的乱码问题。当爬取网页内容时，如果不正确地处理字符编码，输出的结果可能会显示为奇怪的符号，如"å·²éªè¯ å®å¨ ç¾ç"。这通常是因为网页的...

Python：爬虫乱码

weixin_45068714的博客

10-14

2801

在所有的编解码方式中，ASCII码字符对应的二进制表示都是一样的。编、解码要相对应，才能不损失数据原本的意义，我们才不会误解数据；数据以编码方式1进行编码的到字节流，那么这段字节流必须以对应的解码方式1进行解码，才可以得到原始的数据；否则这段字节流可能会：1、解码成别的数据（按照解码方式2，这一段二进制位对应了别的字符）；2、解码失败（按照解码方式2，这一段二进制位可能不对应任何字符）。

python爬取网页有乱码怎么解决

热门推荐

勿在浮沙筑高台

02-11

1万+

HTTP头–Accept-Language 简介 Accept-Language：表示浏览器所支持的语言。当我们在开发国际化的网站时，后端接口的信息需要根据用户所使用的语言返回对应的内容。作为后端我需要前端在请求头的Accept-Language属性声明需要返回的语言。格式 Accept-Language: lange-range[weight] 示例 Accept-Language: zh-...

Python爬虫中文乱码问题

学习一定要有针对性的练习-实操！

02-07

1401

我们在爬虫输出内容时，常常会遇到中文乱码情况（以如下网址为例）。 https://chengdu.chashebao.com/yanglao/19077.html 在输出内容时，出现如下图的情况：解决爬虫中文乱码的步骤网址编码为gbk 查看网页源代码的head部分的编码：<meta http-equiv="Content-Type" content="text/html; charset=gb2312">，发现网页编码为gbk类型利用requests库的方法查看默认输出的编码

python爬虫时中文乱码完美解决方案

find1star的博客

06-21

3366

python爬虫乱码问题解决

解决Python爬取百度页面出现中文乱码问题

ungoing的博客

12-28

4935

开始跟着B站上学习爬虫，使用的工具是PyCharm。视频链接：https://b23.tv/NLp4gz6?share_medium=android&share_source=qq&bbid=XYC5605C8F19F10D959B8A59F386FD514EF41&ts=1640697988835 爬虫代码如下： # -*- coding: utf-8 -*- # 爬虫：本质是通过编写程序来获取到互联网上的资源 # 百度 # 需求：用程序模拟浏览器，输入一个网址，从该网址中

python 使用requests模块爬取数据时中文乱码问题

一些小问题

05-08

2813

目录前言重现问题 1.寻找目标 2.编写代码解决问题我喜欢的方式尾声前言要想解决乱码问题得先知道我们获取的内容是什么格式的字符编码集最常用的判断方式是查看网页源代码中的<meta charset="XXX"> 第二种方式是在浏览器开发者工具中的控制台中输入document.charset 即可显示出网页的编码格式重现问题 1.寻找目标我先找一个会乱码的网站，就以国家统计局吧，先找一个中文字比较多的吧先查看网页源代码，可以大概判断出是..

Python+requests 爬取网站遇到中文乱码怎么办？

weixin_30477797的博客

04-07

4773

分类： Python/Ruby 最近刚开始使用python来做爬虫爬取相关数据，使用了python自带的urllib和第三方库requests，解析html使用了beautifulsoup以及lxml 这里说下lxml，lxml是python的一个html、xml解析库，lxml使用XPath能快速，简单的定位元素并获取信息。下面进入正题注：Python3...

python3爬虫中文乱码_python3爬虫中文乱码之请求头‘Accept-Encoding’：br 的问题

06-07

在Python3的爬虫中，如果请求头中的Accept-Encoding字段包含br，可能会导致中文乱码的问题。这是因为br是Brotli压缩算法的缩写，用于对HTTP响应进行压缩。如果服务器返回的响应已经被压缩过，那么请求头中带有br的话...