转译带有中文的url

最新推荐文章于 2024-05-08 14:33:43 发布

行走在云端z

最新推荐文章于 2024-05-08 14:33:43 发布

阅读量395

点赞数

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/pang_2899/article/details/108436419

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

import urllib.request
import string
import urllib.parse

def get_data():
    url = 'https://www.baidu.com'
    params = {
        "wd":"美女",
        "key": "zhang",
        "value":"san"
    }

    str_params = urllib.parse.urlencode(params)
    final_url = url + str_params
    #将带有中文的url转译成计算机可以识别的url

    end_url = urllib.parse.unquote_plus(final_url,safe='final_url')
    response = urllib.request.urlopen(end_url)
    data = response.read().decode('utf-8')

decode encode str ---------> str(Unicode) ---------> str

>>> u = '中文' # 指定字符串类型对象u

>>> str1 = u.encode('gb2312') # 以gb2312编码对u进行编码，获得bytes类型对象 >>> print(str1) b'\xd6\xd0\xce\xc4'

>>> str2 = u.encode('gbk') # 以gbk编码对u进行编码，获得bytes类型对象 >>> print(str2) b'\xd6\xd0\xce\xc4' >>> str3 = u.encode('utf-8') # 以utf-8编码对u进行编码，获得bytes类型对象 >>> print(str3) b'\xe4\xb8\xad\xe6\x96\x87'

>>> u1 = str1.decode('gb2312') # 以gb2312编码对字符串str进行解码，获得字符串类型对象 >>> print('u1') '中文'

>>> u2 = str1.decode('utf-8') # 报错，因为str1是gb2312编码的 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd6 in position 0: invalid continuation byte

行走在云端z

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
转译带有中文的url

import urllib.requestimport stringimport urllib.parsedef get_data(): url = 'https://www.baidu.com' params = { "wd":"美女", "key": "zhang", "value":"san" } str_params = urllib.parse.urlencode(params) final_url.
复制链接

扫一扫