python爬取网页时出现乱码（中文）

最新推荐文章于 2023-10-04 11:47:02 发布

17不想当码农

最新推荐文章于 2023-10-04 11:47:02 发布

阅读量865

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/qq_44532527/article/details/124026925

版权

Python爬虫乱码 GBK编码 ISO-8859-1 编码转换

关键词由CSDN通过智能技术生成

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

在爬取某电子书网站源码的时候，所爬取的源码内的中文内容出现了乱码，代码如下
在这里插入图片描述
爬取的结果：

中文部分出现了乱码，猜测应该是由编码问题造成的，首先想到的是不是采用utf-8的编码方式
于是先改成了这样：

import  requests
url = 'https://www.qbiqu.com/0_1/'
response = requests.get(url)
response.encoding='utf-8'

print(response.text)

结果运行了一下之后…
在这里插入图片描述
enmmm…
差点给整不会了
估计编码方式还是有点问题
这时候查看了一下网页源码：

charset这个属性是属性规定在外部脚本文件中使用的字符编码，这里用到的是GBK
所以再更改一下编码方式尝试一下，代码如下：

import  requests
url = 'https://www.qbiqu.com/0_1/'
response = requests.get(url)

code=response.text.encode('iso-8859-1').decode('gbk')
print(code)

运行一下，大功告成，乱码问题解决
在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

17不想当码农

关注关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
3
评论
python爬取网页时出现乱码（中文）

python爬取数据时的乱码问题
复制链接

扫一扫

专栏目录

python爬虫requests返回网页内容为空_Python 爬虫使用Requests获取网页文本内容中文乱码...

weixin_39719018的博客

11-20

843

1. 问题使用Requests去获取网页文本内容时，输出的中文出现乱码。2. 乱码原因爬取的网页编码与我们爬取编码方式不一致造成的。如果爬取的网页编码方式为utf8，而我们爬取后程序使用ISO-8859-1编码方式进行编码并输出，这会引起乱码。如果我们爬取后程序改用utf8编码方式，就不会造成乱码。3. 乱码解决方案3.1 Content-Type我们首先确定爬取的网页编码方式，编码方式往往可以从...

页面上看不到又不占位置的特殊字符

shengmeshi的博客

11-29

2万+

问题：在页面上直接复制粘贴图片地址的时候，出现地址正确却加载不出图片，并且页面提示“图片不存”的情况。解决：对比代码中的图片地址无误，但是用chrome浏览器使用“Elements”检查页面的时候发现，在图片的地址上出现多余的几个字符串 “%E2%80%8E” 。隐藏字符：ZERO-WIDTH SPACE (ZWSP) 页面存在一种肉眼无法发现的空白，当两个字符a,b之间存在这种字符的时候...

3 条评论您还未登录，请先登录后发表或查看评论

Python 爬虫中文乱码一文通

HRG520JN的博客

07-27

3926

还在找python中文乱码的解决方法？来跟我学习，一文直接PASS。

Python爬虫——爬取网页时出现中文乱码问题

热门推荐

lucky_shi的博客

03-02

4万+

网页字符乱码处理一、查看原网页编码的方式 1.首先呢，咱来说说如何在网页中查看编码方式，以爱奇艺为例，爱奇艺进入爱奇艺网页页面，鼠标 “右击–>检查–>点击Console–>输入document.charse 即可显示出网页的编码格式,如图：![在这里插入图片描述](https...

python 使用requests模块爬取数据时中文乱码问题

一些小问题

05-08

2790

目录前言重现问题 1.寻找目标 2.编写代码解决问题我喜欢的方式尾声前言要想解决乱码问题得先知道我们获取的内容是什么格式的字符编码集最常用的判断方式是查看网页源代码中的<meta charset="XXX"> 第二种方式是在浏览器开发者工具中的控制台中输入document.charset 即可显示出网页的编码格式重现问题 1.寻找目标我先找一个会乱码的网站，就以国家统计局吧，先找一个中文字比较多的吧先查看网页源代码，可以大概判断出是..

浅谈Python爬取网页的编码处理

09-21

Python爬取网页时，编码处理是一个关键步骤，因为网页的编码方式多种多样，不正确的处理会导致乱码。本文主要探讨如何解决Python爬虫在处理网页编码时遇到的问题。首先，我们要理解编码的基本概念。在计算机中，...

解决Python网页爬虫之中文乱码问题

09-20

今天小编就为大家分享一篇解决Python网页爬虫之中文乱码问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

python如何爬取网页中的文字

09-16

Python爬取网页中的文字是一项基础而重要的技能，尤其在数据抓取和分析领域。下面将详细解释这个过程，包括相关知识点、步骤以及注意事项。首先，我们需要确定要爬取的目标。在网页开发中，所有我们看到的文本内容...

Python爬取数据并实现可视化代码解析

09-16

同时，通过rcParams配置字体，解决中文乱码问题。总的来说，Python爬取数据和可视化的过程涉及到了requests库的HTTP请求，openpyxl库的Excel数据读取，以及matplotlib库的图表绘制。这些技能对于数据科学家和数据...

Python爬虫解决中文乱码

naozibuok的博客

10-04

1474

或者在页面Ctrl+U，再Ctrl+F，输入charset查找文本编码格式。在终端输入pip install chardet安装chardet库。chardet库提供了detect函数，用于检测给定文本的编码格式。问题在于文本的编码格式不正确。

python爬取网页信息之中文显示

qq_36510630的博客

02-06

1160

【导读】记录学习爬虫的过程【主题】将python爬取到网页信息中的中文显示出来【代码】 from urllib import request url = r"http://www.baidu.com/" #'r'是防止字符转义的如果路径中出现'\t'的话不加r的话\t就会被转义而加了'r'之后'\t'就能保留原有的样子 #发送请求，获取响应信息 reponse = request.u...

python运行无法显示中文_python 程序正常运行完毕后，不显示中文？

weixin_39529128的博客

12-17

1053

# -*- coding:utf8 -*-from bs4 import BeautifulSoupimport requestsurl = 'http://www.woshipm.com' #写明我们要抓取的网页；web_data = requests.get(url) #web_data为变量名，用requests库中的get来抓取这个网页的信息；soup = BeautifulSou...

彻底解决IDEA的所有中文乱码问题

木心小白菜的博客

11-22

8026

当使用IDEA的时候，经常出现各种乱码，不是控制台乱码、日志乱码就是网页乱码等。现在我们把它们统一改成UTF-8编码格式，以后就不会再出现这些问题啦。步骤： 1、修改tomcat日志编码。找到 tomcat 目录 conf 文件夹中的 logging.properties文件，全部修改为UTF-8格式。 2、解决IDEA控制台乱码。在菜单栏中，选择Run - > Edit Configurations… 然后在 VM options: 中输入-Dfile.encoding=UTF-8，然后点

可恶的零宽空格—ZWSP

小超的博客

03-14

5845

项目场景：很简单的东西，就是在本地新建文HTMLimg标签调试读取图片，然后在浏览器打开 <img src="C:\3.jpg"> 问题描述本以为一切顺利的时候问题来了，浏览器不输出那张图片，路径也是正常的，瞬间懵逼了在其他电脑上调试都没问题，甚至怀疑过系统问题。。。。然后发现手打路径可以正常访问，右键属性复制的不行，就一直在找原因，然后试着试着发现手写也不行了，复制的也不行了。。。。原因分析：本以为是复制的和手打的不一样，还专门去做了字符串字节比对，发现确实手打的.

python爬虫获取到的URL乱码解决方法

hynhsa的博客

08-08

590

一、问题二、解决方法 1、导入urllib库中的parse对象 2、利用parse中的unquote函数传入乱码的url地址即可获得正确编码的url地址

python去除零宽字符 ZWNBSP

qq_41841073的博客

12-14

3564

当我们读取txt文件的时候，有时候会出现编码问题，就是一行中平白无故多出一个零宽字符，如下所示：我发现这个问题在python3可以解决，方式如下： open(file_path, mode='r', encoding='UTF-8-sig') 以这种方式打开问价就行，前提python解释器是python3 参考文档在这里 ...

Python爬虫中文乱码问题

weixin_44003896的博客

11-07

1122

Python爬虫中文乱码问题解决办法

python爬取的网页出现乱码