python3解决爬取网页中文显示为16进制数的问题

最新推荐文章于 2023-02-02 09:53:18 发布

eagle1024

最新推荐文章于 2023-02-02 09:53:18 发布

阅读量6.7k

点赞数 1

分类专栏： python

本文链接：https://blog.csdn.net/eagle1024/article/details/81036021

版权

在爬取网页内容时遇到中文显示为16进制的状况，尝试将编码从utf8改为gbk后，成功解决了UnicodeDecodeError，并正确显示了中文内容。

摘要由CSDN通过智能技术生成

最近发现一个问题，网页爬取出来的中文显示为十六进制。代码如下：

import urllib.request as rst
import re
import requests
response = rst.urlopen('http://hq.sinajs.cn/list=s_sz000001')
print("dest text=", stockStr)

结果如下：

dest text= b'var hq_str_s_sz000001="\xc6\xbd\xb0\xb2\xd2\xf8\xd0\xd0,8.88,0.00,0.00,603378,53540";\n'

我试着改为utf8的编码，结果报错了。

print("dest text=", stockStr.decode('utf-8'))

提示解码失败：

UnicodeDecodeErr

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

eagle1024

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python3 正常显示出十六进制（坑人不浅）

Robin_Pi的博客

12-25

2479

Python3 自动转Unicode有时候真的是很烦人啊！！直接上方法 input_data = b'WAV\x04\xbc\x04\x00RR' def print_hex(bytes): ''' 在Python3下打印出十六进制字节串 ''' l = [hex(int(i)) for i in bytes] return l print_hex(input_data) ['0x57', '0x41', '0x56', '0x4', '0xbc', '0

python正则表达式 16进制数字_Python正则表达式，看完这篇文章就够了！

weixin_35057726的博客

02-21

2642

玩转正则表达式本文中介绍的是主要是 3 个知识点：正则表达式的相关知识Python的中 re 模块，主要是用来处理正则表达式一个利用 re 模块通过正则表达式来进行网页数据的爬取和存储使用的系统 Python 版本和其他环境分别如下：npython 3.7.5MacOSjupyter notebookre # re 模块requests 2.23.0 # 发送请求1、正则表达式1.1 正则表达式...

1 条评论您还未登录，请先登录后发表或查看评论

python爬虫json数据显示成16进制数

qq_24023869的博客

08-10

3974

python爬虫json数据显示成16进制点以下链接： https://blog.csdn.net/xiaosongbk/article/details/65446351

【Python爬虫】用urllib请求一个网页，响应的content中中文为16进制，如何转换为中文

一个甜甜的大橙子的博客

01-06

2696

问题：在学习Python爬虫一开始，利用python自带urllib模块请求一个网页时，响应的content中中文为16进制，如何转换为中文。环境：WIN10+Python3.6 代码： #~ coding=utf-8 #~ 使用Pyton内建模块 urllib 请求一个 URL 代码示例 import ssl from urllib.request import Request fr...

爬虫返回数据 16进制编码问题

大潘的博客

07-02

2069

昨天分析爬虫接口时发现返回数据 json转化时出错经过检查发现问题是 json字符串中有 \x3E、\x2F这种编码字符串，开始解决思路就是把16进制转化为普通字符串结果不行原因编码问题本来这些返回数据是需要前端js 去解析的 \x 开头的16进制数据是js的表示方法 0x 开头才是python 16进制的表示方法所以返回的数据不处理直接用python 去解析会出现异常解决办法在处理之前先对返回的数据进行编码格式处理 res = response.content.de.

python读取的中文为16进制_python3解决爬取网页中文显示为16进制数的问题

weixin_35298139的博客

02-11

1059

最近发现一个问题，网页爬取出来的中文显示为十六进制。代码如下：import urllib.request as rstimport reimport requestsresponse = rst.urlopen('http://hq.sinajs.cn/list=s_sz000001')print("dest text=", stockStr)结果如下：dest text= b'var hq_st...

python 抓取的网页数据中文以16进制形式显示如“\x54\76”

10-12

5473

python抓取网页数据后,中文字符以16进制显示，返回的数据如下所示 b'[{"name":"\xe8\x8b\xb9\xe6\x9e\x9c\xe5\x9b\xad","pyName":"PGY","pyfName":"PINGGUOYUAN","englishName":null,"transfer":false}]' 这是因为网页一般采用的时‘utf-8’和‘gbk’编码，对返回结

解决python 保存json到文件时中文显示16进制编码的问题

asdfgh0077的博客

06-24

667

解决python 保存json到文件时中文显示16进制编码的问题

python爬取付费隐藏内容_如何用python 爬取网页中隐藏的div内容？

weixin_39927848的博客

11-23

7384

图片所在的html元素id叫 viewimg ，这个元素是由 view.js 当中的 loadview 函数创建的。该函数吧serverurl跟photosrc这个array里头的元素拼接，并把他设置成viewimg的src属性，这就是图片链接。图片链接由前半部分服务器链接和后半部分GET参数构成。服务器链接相对固定，实际只发现了两个：img.tsjjx.comimg.hi328.comGET参数...

python爬取数据总结_2020-10-23Python——网页数据爬取知识总结

weixin_34042899的博客

01-13

850

一.爬虫请求方法1.模块名：urllib.resquest2.导入的方式：import urllib.resquestfrom urllib import request3.使用的方法req = request.Request(url,headers=headers)res = request.urlopen(req)html = res.read().decode('utf-8')其中的方法的详...

python 把string的值当做16进制处理

Paul_ss的专栏

05-15

4927

一个string的，因为某种原因我们需要将它的值看成hex来处理。这个问题的上下文是这样的。我们公司有个一个APK Parser可以获取APK的属性，包括package Name, permissionName之类的，然后以XML文本的形式保存起来。这里出现了一些问题。就是APK的某些项包含特殊字符的时候，我们如果不作任何编码直接放在XML文件里面可能会由于特殊字符的干扰造成XML文件不被识

python web接口返回json数据变成16进制解决方法

qq_31688927的博客

12-29

1095

使用的是python3版本，引入json库接口返回16进制 解决方法： json.dumps(obj, ensure_ascii=False)

ewebeditor在上传文件时出现javascript错误:缺少十六进制错误

chenfei829的专栏

02-26

1266

JSP版ewebeditor在上传文件时出现javascript错误:缺少十六进制错误原因:JS提交数据时出现特殊符号"/";在文件upload.jsp中 sPathFileName=sUploadDir+sSaveFileName; 其中sUploadDir读取到的是文件保存路径 out.println(""); out.print("parent.UploadSaved(");

多文件上传和下载：以16进制字符串的形式传输

weixin_33795833的博客

01-25

653

1. 前言最近在维护一个比较老的 Web 项目，其中用到了 DWR 2.0 （一种可以在 js 里调用 Java 方法的远程通信框架）。现在要利用这个框架实现上传文件到服务端和从服务端下载文件，然而这个项目用的 DWR 2.0，默认只支持调用以基本数据类型，以及String、 List、Map 等常用类型作为参数和返回值的 Java 方...

生意参谋爬虫难点一 ——十六进制数据解密

weixin_42682982的博客

08-30

7527

前提对于爬虫，首先第一步是分析网页，获知需求数据的来源。在chrome浏览器打开生意参谋，通过使用fiddler或者charle抓包工具抓包，发现很多数据都是十六进制数据，这很明显是加密过的。思路既然数据是加密过的，那可以通过js逆向寻找到对应js文件，再找加密的代码段。 F12打开开发者工具，选择sources，按照下图路径找到vendors.js并打开，然后点击左下角{}进行格式化。 Ctrl+F打开底下的搜索框，输入c.setPublicKey即可定位到目标信息。下图，定位到的是AES加密密

16进制的图片信息如何上传到FastDFS

一个假的程序员

08-18

1329

16进制的图片信息如何上传到FastDFS。

upload导入、export导出文件