python爬虫库——urllib常用函数

URL拆分与合并

  • urllib.parse.urlparse(url='') # 将URL解析为六部分:<scheme>://<netloc>/<path>;<params>?<query>#<fragment>

  • urllib.parse.urlparse(url='', scheme='') # 设置URL协议

  • urllib.parse.urlparse(url='', allow_fragments=False) # 将‘fragment’部分解析为‘path’、‘params’或‘query’的一部分

  • urllib.parse.urlunparse(components=('scheme', 'netloc', 'path', 'params', 'query', 'fragment')) # 使用六部分信息构造URL

  • urllib.parse.urlsplit(url='') # 将URL解析为五部分:<scheme>://<netloc>/<path>?<query>#<fragment>

  • urllib.parse.urlsplit(url='', scheme='') # 设置URL协议

  • urllib.parse.urlsplit(url='', allow_fragments=False) # 将‘fragment’部分解析为‘path’或‘query’的一部分

  • urllib.parse.urlunsplit(components=('scheme', 'netloc', 'path', 'query', 'fragment')) # 使用五部分信息构造URL

  • urllib.parse.urljoin(base='', url='') # 将‘base_url’解析为四部分:<scheme>://<netloc>/<path>#<fragment>,使用‘scheme’、‘netloc’、‘path’三部分内容,对新URL缺失部分进行补充

  • urllib.parse.urljoin(base='', url='', allow_fragments=False) # 将‘fragment’部分解析为‘path’的一部分

字典和URL参数转换

  • urllib.parse.urlencode(query={}) # 将字典转换为GET请求参数‘query’

  • urllib.parse.parse_qs(qs='query, str') # 将GET请求参数‘query’转换为字典

  • urllib.parse.parse_qsl(qs='query, str') # 将GET请求参数‘query’转换为由元组组成的列表

文本和URL编码转换

  • urllib.parse.quote(string='') # 将中文字符转换为URL编码格式

  • urllib.parse.unquote(string='') # 将URL编码格式解码为中文字符

  • 11
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值