python中的编码转换

飞得更高肥尾沙鼠

已于 2022-08-08 18:23:36 修改

阅读量4.5k

点赞数 2

分类专栏： python基础文章标签： python

于 2022-05-08 16:00:26 首次发布

本文链接：https://blog.csdn.net/dzdzdzd12347/article/details/124648872

版权

python基础专栏收录该内容

16 篇文章 1 订阅

订阅专栏

本文详细介绍了Python中十六进制与中文的转换，包括字符串和bytes类型的处理。同时，阐述了URL的编码与解码，包括编码文字、字典，以及指定不编码的字符。此外，还讲解了URL的解析和查询参数提取，以及Unicode与中文的转换方法。

摘要由CSDN通过智能技术生成

python中的编码转换

一、十六进制与中文

概念

\x开头的编码是十六进制字符，\x后面跟的字符即为十六进制的字符串。

十六进制转中文

1、要转换的类似\xe8\xa7\xa3，且为字符串

info = '\\xe8\\xa7\\xa3\\xe6\\x9e\\x84\\xe6\\x89\\xb9\\xe8\\xaf\\x84\\xe6\\x8e\\xa2\\xe7\\xa7\\x98'#字符串类型
out = bytes(info,'utf-8').decode('unicode_escape').encode('latin1').decode()
print(out)

输出：

解构批评探秘

2、要转换的类似\xe8\xa7\xa3，且为字符串

方法一：

info = '\xe4\xbd\xa0\xe5\xa5\xbd\xe4\xb8\x96\xe7\x95\x8c'#字符串类型
info = info.encode('unicode_escape').decode('utf-8')
out = bytes(info,'utf-8').decode('unicode_escape').encode('latin1').decode()
print(out)

输出：

你好世界

方法二：

from urllib import parse
info = '\xe4\xbd\xa0\xe5\xa5\xbd\xe4\xb8\x96\xe7\x95\x8c'
info = info.encode('unicode_escape').decode('utf-8').replace('\\x', '%')
out = parse.unquote(info)
print(out)

输出：

你好世界

3、为bytes类型

info = b'\xE6\x88\x91\xE6\x98\xAF\xE8\xAF\xB7\xE6\xB1\x82'
info = info.decode('utf-8')
print(info)

输出：

我是请求

二、URL的编码与解码

url编码

1、编码文字

from urllib import parse

print(parse.quote("你好"))  # 以utf-8编码模式进行url编码
print(parse.quote("你好", encoding='gbk'))  # 以gbk编码模式进行url编码

输出：

%E4%BD%A0%E5%A5%BD
%C4%E3%BA%C3

2、编码字典

from urllib import parse

args = {
    'wd': '你好',
    'ie': '哈哈'
}

url = "http://www.baidu.com/s?{}".format(parse.urlencode(args))  # 以utf-8编码模式进行url编码
url2 = "http://www.baidu.com/s?{}".format(parse.urlencode(args, encoding='gbk'))  # 以gbk编码模式进行url编码
print(url)
print(url2)

输出：

http://www.baidu.com/s?wd=%E4%BD%A0%E5%A5%BD&ie=%E5%93%88%E5%93%88
http://www.baidu.com/s?wd=%C4%E3%BA%C3&ie=%B9%FE%B9%FE

3、规定某些字符不进行编码

规定;/?:@&=+$,不进行编码

from urllib.parse import quote
url = "https://www.baidu.com/s?wd=code123中国"
gbk_url = quote(url, safe=";/?:@&=+$,", encoding="gbk")
utf_url = quote(url, safe=";/?:@&=+$,", encoding="utf-8")
print("gbk_url: %s" % gbk_url)
print("utf_url: %s" % utf_url)

规定对于可显示的ascii字符,不做编码

from urllib.parse import quote
import string
url = 'http://www.hello.world/你好世界'
url_encode = quote(url, safe=string.printable)
print(url_encode)

url解码

1、解码字符串

from urllib import parse
print(parse.unquote("http://www.baidu.com/s?wd=%E4%BD%A0%E5%A5%BD&ie=%E5%93%88%E5%93%88"))
print(parse.unquote("http://www.baidu.com/s?wd=%C4%E3%BA%C3&ie=%B9%FE%B9%FE",encoding='gbk'))

输出：

http://www.baidu.com/s?wd=你好&ie=哈哈
http://www.baidu.com/s?wd=你好&ie=哈哈

2、解码字典

from urllib import parse

params = {
    'name': '张三',
    'age': 18,
    'greet': 'hello'
}
qs = parse.urlencode(params)
print(qs)
result = parse.parse_qs(qs)
print(result)

输出：

name=%E5%BC%A0%E4%B8%89&age=18&greet=hello
{'name': ['张三'], 'age': ['18'], 'greet': ['hello']}

url解析

from urllib import parse

url = 'http://www.baidu.com/s?wd=python&username=abc#1'
result = parse.urlparse(url)

print('scheme:', result.scheme)
print('netloc:', result.netloc)
print('path:', result.path)
print('params:', result.params)
print('query:', result.query)
print('fragment:', result.fragment)

输出：

scheme: http
netloc: www.baidu.com
path: /s
params: 
query: wd=python&username=abc
fragment: 1

url提取查询参数

方法一：

from urllib import parse

url = 'http://www.baidu.com/s?wd=python&username=abc#1'


def get_query(url):
    result = parse.urlparse(url)
    querys = parse.parse_qs(result.query)
    querys = {k: v[0] for k, v in querys.items()}
    return querys


print(get_query(url))

输出：

{'wd': 'python', 'username': 'abc'}

方法二：使用模块furl
安装

pip install furl

使用

from furl import furl

f = furl("http://www.baidu.com/s?wd=python&username=abc#over")
print(f.path)
print(f.scheme)
print(f.fragment)
print(f.args['wd'])
print(f.args['username'])

输出：

/s
http
over
python
abc

unicode与中文

unicode转中文：类型1

s = '\\u9500\\u552e'
print(json.loads(f'"{s}"'))
print(s.encode('utf-8').decode("unicode_escape"))

输出：

销售
销售

unicode转中文：类型2

i = '\u751F\u5316\u5371\u673A'
print(str(i))

输出：

生化危机

飞得更高肥尾沙鼠

关注

2
点赞
踩
13

收藏

觉得还不错? 一键收藏
打赏
0
评论
python中的编码转换

python中的编码转换十六进制与中文概念十六进制转中文1、要转换的类似\\xe8\\xa7\\xa3，且为字符串2、要转换的类似\xe8\xa7\xa3，且为字符串URL的编码与解码url编码十六进制与中文概念\x开头的编码是十六进制字符，\x后面跟的字符即为十六进制的字符串。十六进制转中文1、要转换的类似\xe8\xa7\xa3，且为字符串info = '\\xe8\\xa7\\xa3\\xe6\\x9e\\x84\\xe6\\x89\\xb9\\xe8\\xaf\\x84\\xe6\\x8
复制链接

扫一扫