Python 网页链接中文乱码的解决

Python 网页链接中文乱码的解决


问题

在实现python网络爬虫的过程中,有时候你会发现有些链接中的中文字符会变成“乱码”。当然所有的乱码都是缺少一个合适解码编码方式。如果我们需要提取网页链接中的中文字符这么办?

例如下面这条链接:
https://baike.baidu.com/item/%E9%A2%88%E6%A4%8E

解决办法

当然现在有些网站可以在线解码,例如:

https://www.bejson.com/enc/urlencode/

在python中我们可以从urllib.parse库中导入unquote模块。

实现如下:

from urllib.parse import unquote

url = "https://baike.baidu.com/item/%E9%A2%88%E6%A4%8E"
new_url = unquote(url, 'utf-8')
print(new_url)

效果如图:

最后

希望对大家有所帮助!:-)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值