python解码未知编码格式,使用Python解码未知的编码繁体中文字符串

chanluong

于 2021-01-30 02:12:13 发布

阅读量239

点赞数

文章标签： python解码未知编码格式

博客讨论了如何处理一种特殊的编码问题，即网站统计数据中出现的无法理解的搜索字符串。这个字符串是由于URL编码后的UTF-8字节被误解释为拉丁-1编码导致的。通过使用Python的`urllib2.unquote`和`decode('utf8')`方法，可以成功将乱码字符串转换回正确的“台南親子餐廳”。这个问题涉及到字符编码的识别和转换，对于网页开发和数据解析具有重要意义。

摘要由CSDN通过智能技术生成

Hi I have a website that is in Traditional Chinese and when I check the site statistics it tell me that the search term for the website is å%8f°å%8d%97 è¦ªå%90é¤%90å»³ which obviously makes no sense to me. My question is what is this encoding called? And is there a way to use Python to decode this character string. Thank you.

解决方案

It is called a mutt encoding; the underlying bytes have been mangled beyond their original meaning and they are no longer a real encoding.

It was once URL-quoted UTF-8, but now interpreted as latin-1 without unquoting those URL escapes. I was able to un-mangle this by interpreting it as such:

>>> from urllib2 import unquote

>>> bytesquoted = u'å%8f°å%8d%97 è¦ªå%90é¤%90å»³'.encode('latin1')

>>> unquoted = unquote(bytesquoted)

>>> print unquoted.decode('utf8')

台南親子餐廳

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

chanluong

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python解码未知编码格式,使用Python解码未知的编码繁体中文字符串

Hi I have a website that is in Traditional Chinese and when I check the site statistics it tell me that the search term for the website is å%8f°å%8d%97 è¦ªå%90é¤%90å»³ which obviously makes no sense ...
复制链接

扫一扫

编码以及Python中的编码

qq_33410995的博客

07-21

613

编码不管是哪种语言，在学习的时候，只要涉及到中文，多多少少都会遇到一些编码问题。然而，说实话，作为一个英语水平没有那么专业的中国人，中文是必不可少的。所以，了解编码以及解码就变得非常重要。下面是从各个资料整合并且亲自动手尝试的编码介绍。各种编码格式的发展历程编码有很多种，计算机最初是在美国等国家发明的所以表示字符只有简单的几个字母只要对字母进行编码就好我们标准码 iso-8859-1 这就是一个标准。但是后来计算机普及了于是就中国要使用计算机了但是机器不认得中文，于是就有了国际码。 gbk

json 未知编码 byte 解码_用Gox语言进行JSON编码与解码

weixin_39600823的博客

11-26

在Gox语言中进行JSON的编码和解码还是比较方便的，有多种方法可以选择，我们来看看。先看看对JSON字符串的解码。json = import("encoding/json")jsonStrT = `{"name": "Peter", "age": 19, "father": {"name": "Jordan", "age": 56}}`println("jsonStrT:", jsonStrT)...

参与评论您还未登录，请先登录后发表或查看评论

处理未知页面的编码问题

mjp_erhuo的博客

07-24

250

乱码演示 url = 'https://newhouse.fang.com/house/s/#' a_li = '//div[@id="cityi010"]/a' aa = './text()' header = {'User-Agent': 'Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)'} res = requests.get(url=url, headers=header) et

python 操作 csv 编码问题，繁体字体乱码

tutu96177的博客

08-26

2072

# -*- coding: utf-8 -*-# import os import pandas as pd def get_file(): work_dir = './人工可以区分除霜与非除霜_99/' file_list = os.listdir(work_dir) lk = pd.DataFrame() lk['file_name'] = file_lis...

python中的编码以及解码问题（中文字符处理以及文件处理的某些注意事项）

MSFollower的博客

11-04

621

最近在做一个项目，因为文本处理的内容是中文，所以不得不面对python中文处理所带来的种种困惑。中文处理的问题主要是编码。处理好了编码之后，几乎所有的问题都迎刃而解。下面我们从中文字符串和中文文本两个角度来探讨。（一）中文字符串编码首先要明白的是，python里面默认的字符串都是ASCII编码，是string类型，ASCII编码处理中文字符是会出问题的。python的内部

python中字符串的编码与解码详析

01-19

GBK：国家简体中文字符集和繁体字符集，兼容ASCII，占两个字节 Unicode：能够表示全世界上所有的字符，Unicode有人说占4个字节也有人说占2个字节，但中文占2个字节 UTF-8：Unicode的压缩版，占1~3个字节，其中...

Python2与Python3关于字符串编码处理的差别总结

09-16

在Python2中，当你尝试打印一个字节字符串时，Python会尝试使用系统默认的编码进行解码，如果该编码与字节字符串的实际编码不匹配，就可能出现乱码。而在Python3中，print语句会自动处理字符串的编码和解码，确保...

python使用chardet判断字符串编码的方法

09-22

本篇文章将详细解释如何使用`chardet`来判断字符串编码，并探讨Python中与编码相关的几个关键概念。首先，让我们深入了解`chardet`库。在Python中，`chardet`是一个自动识别非ASCII字符编码的库，支持多种编码格式...

Python中json格式数据的编码与解码方法详解

09-21

`json.dumps()`用于将Python对象编码为JSON字符串，`json.loads()`则用于将JSON字符串解码回Python对象。理解这些方法的工作原理和转换规则对于处理JSON数据至关重要。在实际应用中，可能还需要处理一些特殊场景，...

Python之字符串和编码共13页.pdf.zip

最新发布

10-30

例如，如果一个字符串是GBK编码，可以使用`str.encode('GBK')`将其转换为字节，再用`bytes.decode('UTF-8')`将其解码为UTF-8编码的字符串。 6. **异常处理** 编码和解码过程中可能会出现错误，如`...

python:正确的对未知编码的字符串进行预处理-Unicode-UTF8-gbk

abednego1979的专栏

04-09

1784

由于计算机只能识别二进制数据，所以指望程序自动的猜出字符串是如何编码的很难。而现实中，我们经常得到编码方式未知的字符串，我们总是希望能将这些字符串先统一预转换为unicode编码，在处理以后再根据需要编码到需要的格式为了判断原始字符串的编码格式，可以采用chardet模块我编写了下面的一个函数，用以从文件中读取信息，并统一转换为unicode格式返回，同时返回的还有数据

QT/python 繁体中文识别和文件转化

STL1634614466的博客

06-19

1545

一、首先要明确各种不同的编码格式 1、iso-8859-1：标准码，最初是在美国等国家发明的所以表示字符只有简单的几个字母只要对字母进行编码。编码是单字节编码，向下兼容ASCII，其编码范围是0x00-0xFF，0x00-0x7F之间完全和ASCII一致，0x80-0x9F之间是控制字符，0xA0-0xFF之间是文字符号。此字符集主要支持欧洲使用的语言。　　2、GBK：是指中国的中文字符，其它它包含了简体中文与繁体中文字符，另外还有一种字符“gb2312”，这种字符仅能存储简体中文字...

python中encode(),decode(),urlencode()等的介绍

qq_44658096的博客

09-04

4827

一、urlencode() urllib库中的urlencode()方法，接受参数形式为：[(key1, value1), (key2, value2),…] 和 {‘key1’: ‘value1’, ‘key2’: ‘value2’,…} 返回的是形如key2=value2&key1=value1的字符串。 import urllib data=[('email','北京1234@qq....

python utf-8解码_Url在Python中解码UTF-8

weixin_39942033的博客

12-04

2805

数据是使用URL引用转义的UTF-8编码字节，因此您需要解码，urllib.parse.unquote()处理从百分比编码数据解码为UTF-8字节，然后透明地处理文本：from urllib.parse import unquoteurl = unquote(url)演示：>>> from urllib.parse import unquote>>> url =...

编码与解码问题的总结

sunxing007的专栏

09-03

5199

有关编码的问题在有中文的java开发中是个大问题，太多东西值得学习。自己也看了很多前辈的blog, 但是如果说要我自己总结一下这些问题，我突然发现说不出一二三四，尤其让我感触的是，前几天看到有人问ajax乱码问题，下去写demo的时候，发现以前看的东西都忘记了，于是把我收藏的几篇关于编码的文章再次读了两遍，突然让我觉得每读一遍都有新的收获。读完了之后我觉得有必要作个总结，做个抽象，要不然又会很快

【Python笔记】Python 中的编码与解码

RadiantJeral的博客

06-28

1843

本文记录 Python2.x 和 Python3.x 中关于编码和解码的问题.

python实现中文字符繁体和简体中文转换