Quote 转Unicode 编码的使用

最新推荐文章于 2024-04-18 17:50:39 发布

flysh05

最新推荐文章于 2024-04-18 17:50:39 发布

阅读量666

点赞数

分类专栏： Python 文章标签： python urllib库 HTML5

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/flysh13/article/details/121624016

版权

Python 专栏收录该内容

125 篇文章 3 订阅

订阅专栏

由于计算机是美国人发明的，因此，最早只有127个字符被编码到计算机里，也就是大小写英文字母、数字和一些符号，

这个编码表被称为 ASCII编码，比如大写字母A的编码是65，小写字母z的编码是122。

但是要处理中文显然一个字节是不够的，至少需要两个字节，而且还不能和ASCII编码冲突，所以，中国制定了GB2312编码，用来把中文编进去。你可以想得到的是，全世界有上百种语言，日本把日文编到Shift_JIS里，韩国把韩文编到Euc‐kr里，各国有各国的标准，就会不可避免地出现冲突，结果就是，在多语言混合的文本中，显示出来会有乱码。因此，Unicode应运而生。Unicode把所有语言都统一到一套编码里，这样就不会再有乱码问题了。Unicode标准也在不断发展，但最常用的是用两个字节表示一个字符（如果要用到非常偏僻的字符，就需要4个字节）。现代操作系统和大多数编程语言都直接支持Unicode。

解码

urlib.parse.quote() ：将汉字转unicode 编码

1.请求对象的定制

query = urllib.parse.quote(‘编程排行榜’)

url_base =‘https://www.baidu.com/s?wd=’

url = url_base + query

print(url)

输出：

https://www.baidu.com/s?wd=%E7%BC%96%E7%A8%8B%E6%8E%92%E8%A1%8C%E6%A6%9C

这个地址可以直接访问，和直接在百度输入“编程排行榜”搜索一样的

headers ={

‘User-Agent’:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36’

}

request = urllib.request.Request(url=url, headers=headers)

2. 向浏览器发送请求

response = urllib.request.urlopen(request)

3. 获取响应的内容

content = response.read().decode(‘utf-8’)

4. 打印数据

print(content)

输出正常
在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

flysh05 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。