使用requests爬取数据中文编码问题

最新推荐文章于 2023-02-17 19:58:28 发布

Manfestain

最新推荐文章于 2023-02-17 19:58:28 发布

阅读量731

点赞数

本文链接：https://blog.csdn.net/Beans___Lee/article/details/83964954

版权

最近参加一个比赛，由于数据集较少，需要自己手动爬取一些数据。首先发现原网页是局部刷新页面的，通过分析，拿到了请求json字符串的url，将url直接复制在浏览器中，可以拿到json字符串，接下来码代码爬取数据，主要代码如下：

response = requests.get(url)
        if response.status_code == 200:
            content = response.text

发现拿到的数据中中文全部变成了\u***之类的数据，首先想到的可能是编码问题，然后去网上搜，试了好多种办法，还是无法解决。
手动将输出的字符赋值为字符串，然后输出，发现竟然是中文

a = "\u5e73\u624b"
print(a)
print(type(a))

输出：

于是就怀疑可能是数据本身有问题，再次查看原网页数据：

发现原始数据中中文确实是编码，当变为json数据时问题就解决了：

于是修改源代码：

response = requests.get(url)
        if response.status_code == 200:
            content = response.json()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Manfestain

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python爬虫进阶——Request对象之Get请求与URL编码【英雄联盟吧】

WoLykos

12-20

1465

在上一篇中，我们是通过urllib.request.urlopen直接访问的网页地址，但在实际应用中，我们更多地使用urllib.request.Request对象，因为其可以封装headers和data。一、Request类的参数 class Request: def __init__(self, url, data=None, headers={}, ...

python爬取百度搜索_使用Python + requests爬取百度搜索页面

weixin_31970409的博客

02-04

1万+

想学一下怎样用python爬取百度搜索页面，因为是第一次接触爬虫，遇到一些问题，把解决过程与大家分享一下1.使用requests爬取网页首先爬取百度主页www.baidu.comimport requestsurl = "http://www.baidu.com"html = requests.get(url)print(html.text)很简单，调用get函数，传入url，就能提取出页面元素但...

参与评论您还未登录，请先登录后发表或查看评论

python爬取数据 Unicode 编码转中文

qq_43059674的博客

01-14

1082

爬去数据的时候会有这种现象解决方式 str= str.text.encode("gb2312").decode('unicode_escape');

python requests 编码_python requests 中文编码问题

weixin_39911475的博客

12-04

285

url = host + pathheaders = {...}data = {...}files = {...}files两种类型: 字典和元组{"field1" : ("filename1", open("filePath1", "rb")),"field2" : ("filename2", open("filePath2", "rb"), "image/jpeg"),"field3" : ...

Tribon Vitesse程序文件的编码问题

forevermemory的专栏

01-24

743

有段程序要设置Tribon环境中的字体，程序文件代码如下： import kcs_draft kcs_draft.default_value_set("TEXT_FONT = 宋体") 在Tribon中执行的时候提示下列错误： [Function] kcs_draft.default_value_set [Parameters] ('TEXT_FONT = \xe5\xae\x8b\x

【接口测试_Requests】使用json传值时，中文显示\\uxxxx的解决方法

暴打嘟嘟

05-19

1429

Requests使用json传值时，中文显示\\uxxxx的解决方法

python requests爬取高德地图数据的实例

09-19

本文主要介绍如何使用Python语言中的requests库来爬取高德地图的数据，并将爬取的数据存储到Excel表格中。在讲解之前，我们首先了解一些基础知识。首先，Python是一种广泛用于网络编程的高级编程语言。由于其简洁...

python requests库爬取豆瓣电视剧数据并保存到本地详解

09-18

在本教程中，我们将深入探讨如何使用requests库来爬取豆瓣网站上的电视剧数据，并将这些数据保存到本地文本文件中。首先，我们需要找到豆瓣提供的API接口，这通常可以通过浏览器的开发者工具中的网络面板抓包得到。...

Python使用Requests爬取网页

qq_43612801的博客

02-17

584

抓包，获取参数详细，构造参数，并对url参数进行编码，这里通过。通过传递参数实现搜索功能，并爬取网页信息，首先定义一个。进行判断是否为 302 ，以此来获取响应头里的。，已确定网页搜索功能由表单提交方式。

python爬虫爬取标签内容_爬虫之使用requests爬取某条标签并生成词云

weixin_39785858的博客

12-03

2204

一、爬虫前准备1.工具：pychram(python3.7)2.库：random，requests，fake-useragent，json，re，bs4，matplotlib，worldcloud，numpy，PIL，jiebarandom：生成随机数requests：发送请求获取网页信息fake-useragent：生成代理服务器json：数据转换re：用于正则匹配bs4：数据过滤matpotl...

Request获取请求数据中文乱码问题

HuanLe.的博客

11-17

7771

Tomcat在7以及更低版本时，解析中文的字符集默认为ISO-8859-1，并且是在底层写死的，所以浏览器发送Get请求或者时Post请求时，字符集格式不匹配，从而引发中文乱码。但是Tomcat更新到8版本后，默认字符集就更换为了UTF-8。

Request请求乱码问题

LXZ_1024的博客

03-11

1294

Request请求参数方法有俩种：doGet , doPost. 在这俩种方法中会出现中文乱码问题，列如：在我输出中文信息时，控制台打印出乱码然而解决方法很简单，在doGet中加入：request.setCharacterEncoding("UTF-8"); 但这只能使用在doGet方法中。 @Override protected void doGet(HttpServletRequest request, HttpServletResponse response) th.

request(请求)中出现乱码的问题及解决方法

qq_35218635的博客

07-02

2810

解决方式有两种：首先是最上面说的使用string进行重新编码，也就是对每一处会出现乱码的地方都要进行转码，这样的写法会比较麻烦，但是它是不区分请求方式的，也就是不管是get还是post方法都可以通过这种方式来实现另外一种则要根据具体的提交方式来分别书写代码进行处理，但是这种使用公共配置的方法容易出现问题，因为浏览器会有问题，有的浏览器会有不一样的结果为什么get和post的方法解决方式不一样，因为get中的数据值除了在request中，有时还可以直接...

Python3 处理requests中文自动转化为urlencode的问题

qq_34220298的博客

07-06

2117

问题分析：该问题主要由于Python3，及Python2对字符串没有强定义的时候，会自动转化为网络编码—urlencode/URLdecode的编码格式，所以对一下的场景将会对字符串做编码的特殊处理标题1、requests 请求的报文为json及json list的情况在这里插入代码片 [ { "merCode": "***2178210****", "batchNo": "BA202007030930275871", "insCode": "945321782101445

网页数据爬取中文乱码处理--编码问题