关于request爬取的时候出现乱码问题

最新推荐文章于 2024-08-08 17:59:21 发布

cuiljiang

最新推荐文章于 2024-08-08 17:59:21 发布

阅读量883

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/cuiljiang/article/details/87995910

版权

python 专栏收录该内容

13 篇文章 1 订阅

订阅专栏

学习爬虫的时候，经常会遇到这种问题，即显示的内容为乱码。
以下为12306作为一个例子，执行代码如下

import requests

response = requests.get('https://www.12306.cn')
print(response.encoding)
print(response.text)

在这里插入图片描述
可以看到返回response编码类型为 ISO-8859-1，文本输出中中文字符为乱码。

那么最简单的方法就是增加utf-8编码的转化，如下：

import requests

response = requests.get('https://www.12306.cn')
response.encoding = 'utf-8'
# 查看编码方式
print(response.encoding)
print(response.text)

这样问题就解决了。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

cuiljiang

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

nodejs爬虫抓取数据乱码问题总结

10-24

然而，在实际使用Node.js进行爬虫开发时，常会遇到爬取数据出现乱码的问题，这可能是由于编码格式不一致、数据传输编码处理不当等多种原因导致的。以下将详细介绍解决Node.js爬虫数据乱码问题的相关知识点。首先，...

python中——requests爬虫【中文乱码】的3种解决方法

2301_82000445的博客

01-25

1万+

👉Python学习路线汇总👈Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。（学习教程文末领取哈）👉Python必备开发工具👈。

参与评论您还未登录，请先登录后发表或查看评论

3种Python爬虫中文乱码的处理方法

最新发布

Python_00001的博客

08-08

925

Python爬虫在抓取网页数据时，经常会遇到中文乱码问题。这通常是因为网页的编码格式与Python处理时使用的编码格式不一致导致的。以下是三种常见的处理中文乱码的方法，并附上相应的代码示例。

python 使用requests模块爬取数据时中文乱码问题

一些小问题

05-08

2802

目录前言重现问题 1.寻找目标 2.编写代码解决问题我喜欢的方式尾声前言要想解决乱码问题得先知道我们获取的内容是什么格式的字符编码集最常用的判断方式是查看网页源代码中的<meta charset="XXX"> 第二种方式是在浏览器开发者工具中的控制台中输入document.charset 即可显示出网页的编码格式重现问题 1.寻找目标我先找一个会乱码的网站，就以国家统计局吧，先找一个中文字比较多的吧先查看网页源代码，可以大概判断出是..

Request获取请求数据中文乱码问题

HuanLe.的博客

11-17

7770

Tomcat在7以及更低版本时，解析中文的字符集默认为ISO-8859-1，并且是在底层写死的，所以浏览器发送Get请求或者时Post请求时，字符集格式不匹配，从而引发中文乱码。但是Tomcat更新到8版本后，默认字符集就更换为了UTF-8。

Python+requests 爬取网站遇到中文乱码怎么办？

weixin_30477797的博客

04-07

4764

分类： Python/Ruby 最近刚开始使用python来做爬虫爬取相关数据，使用了python自带的urllib和第三方库requests，解析html使用了beautifulsoup以及lxml 这里说下lxml，lxml是python的一个html、xml解析库，lxml使用XPath能快速，简单的定位元素并获取信息。下面进入正题注：Python3...

Python基于requests库爬取网站信息

12-20

当处理中文字符时，可能出现乱码问题。为了避免这种情况，我们可以使用`io`和`sys`库，如以下示例所示： ```python import io import sys sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gb18030') ...

Node.js实现简单的爬取的示例代码

10-16

- iconv-lite模块：用于处理字符编码转换问题，解决网页内容可能存在的乱码问题。 - request模块：用于发起HTTP请求，相比于内置的http模块，request的API更为简洁易用。 - fs模块：Node.js的内置模块，用于文件操作...

玩转python爬虫之爬取糗事百科段子

09-21

【Python爬虫实战：爬取糗事百科段子】 Python爬虫是一种强大的工具，用于自动抓取网页数据。在这个教程中，我们将学习如何使用Python爬取糗事百科上的热门段子，包括发布日期、发布人、段子内容和点赞数，并过滤掉...

python+selenium爬取亚马逊商品评论详情

02-28

亚马逊评论详情页是动态加载的，不过多折腾，直接用selenium进行爬取；用pandas写入csv文件，解决乱码、无序问题；

如何用python获取一个网页的所有连接

weixin_46704937的博客

09-21

1451

如何用python获取一个网页的所有连接

网页数据爬取中文乱码处理--编码问题

u010924297的博客

05-17

2万+

自学爬虫有一段时间了，期间总是觉得内容编码会傻傻分不清楚，尤其是直接网页拿数据的时候，遇见中文有时候特别麻烦，看大神介绍的东西太多，只记下了处理方式，仅供参考，不对地方欢迎大家指正~~一般请求返回内容编码方式步骤如下：1、查看数据源网页的编码形式--爬取数据所在网页源代码就有写：2、编码解析：respond.decode(请求返回的编码格式).encode(Python默认的utf-8)笔记中其他...

用requests爬取内容出现乱码及其解决办法

weixin_44845650的博客

05-15

2441

1、出现乱码情况 2、出现乱码原因当Requests推测的文本编码与源网页编码不一致时，会导致乱码问题的出现。 r=requests.get(url,params=payload) print(r.encoding) #查看Requests推测的文本编码 print(r.apparent_encoding) #查看源网页编码运行结果： ISO-8859-1 utf-8 3、解决方法 r=requests.get(url,params=payload) r.encoding="utf-8" p

爬取数据出现乱码的解决方法

qq330214001的博客

12-03

1万+

爬虫爬取数据出现乱码的解决方法 1.网站源代码中英文全部乱码可能的解决方法： 1）可能是编码格式不同造成的在调用get方法后，返回的对象中有两个属性值，分别为：encoding、apparent_encoding，当二者不同时，可能出现乱码，解决办法是encoding的值优先于apparent_encoding，即令：encoding=apparent_encoding 2）可能是反爬策略调...

使用ruby爬虫提取数据的特殊字符以及乱码（已解决）

weixin_34375054的博客

10-12

253

情况一：在html中有些字符是预留的，例如'<'小于号就会显示'&lt;'，我们要把这些预留的符号转成我们想要的，包括一些不可见的字符，应该怎么做呢首先我们gem install htmlentities 安装这个gem ，下面看这个例子 1 require 'htmlentities' 2 HTMLEntities.new.decod...

Python requests包get响应内容中文乱码解决方案