URL中中文转码和解码

在爬取数据是时候很多搜索的词语中在浏览器上显示的是中文,但是我们复制url到本地,中文就会出现我们看不懂的文字。
如果我们需要爬虫的时候也是一样,我们需要给浏览器传过去的也是对url中的中文进行转码之后的url地址,否则在url中的关键字直接出现中文会有问题。在python3的环境中的urllib库中 quote模块 提供了这一功能

一、URL转码
#!/usr/bin/env python
#-*- coding:utf-8 -*-

from urllib.parse import quote

name = '诗人李白'
url_encode_name = quote(name)
print(url_encode_name)

输出:
%E8%AF%97%E4%BA%BA%E6%9D%8E%E7%99%BD
二、URL解码
#!/usr/bin/env python
#-*- coding:utf-8 -*-

from urllib.parse import unquote

name = '%E8%AF%97%E4%BA%BA%E6%9D%8E%E7%99%BD'
url_decode_name = unquote(name)
print(url_decode_name)

输出:
诗人李白
三、使用urlencode对url转码
#!/usr/bin/env python
#-*- coding:utf-8 -*-

from urllib.parse import urlencode

start_url='http://tieba.baidu.com/f?'
urldata = {
    'kw':'诗人李白',
    'ie':'utf-8',
    'pn':'100',
}

print(start_url+urlencode(urldata))

输出:
http://tieba.baidu.com/f?kw=%E8%AF%97%E4%BA%BA%E6%9D%8E%E7%99%BD&ie=utf-8&pn=100
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值