python爬虫系列(1.1-urllib中常用方法的介绍)

一、关于urllib中常用方法的介绍


  • 1、urlopen网络请求

    urlopen方法是网络请求的方法,默认是get请求,如果传递了datapost请求

    1. from urllib import request

    2. if __name__ == "__main__":
    3. response = request.urlopen('http://www.baidu.com')
    4. print(response.read())
  • 2、urlretrieve下载文件

    1. from urllib import request

    2. if __name__ == "__main__":
    3. # 下载整个网页
    4. request.urlretrieve('http://www.baidu.com', 'baidu.html')
    5. # 下载图片
    6. request.urlretrieve('http://www.baidu.com/img/bd_logo1.png', 'baidu.png')

二、关于编码的处理

  • 1、urlencode将字典类型数据转换为parsed模式

    1. from urllib import parse

    2. if __name__ == "__main__":
    3. dict1 = {
    4. "name": "hello",
    5. "age": "20",
    6. "gender": "man"
    7. }
    8. re = parse.urlencode(dict1)
    9. print(re) # name=hello&age=20&gender=man
  • 2、parse_qsparse_qsl反序列化

    复制代码
    1. from urllib import parse

    2. if __name__ == "__main__":
    3. dict1 = {
    4. "name": "hello",
    5. "age": "20",
    6. "gender": "man"
    7. }
    8. re = parse.urlencode(dict1)
    9. print(re)
    10. print(parse.parse_qs(re))

三、切割url的方法

  • 1、urlspliturlparse方法

    复制代码
    1. from urllib import request, parse

    2. if __name__ == "__main__":
    3. url = 'http://www.baidu.com?name=hello&age=20'
    4. print(parse.urlsplit(url))
    5. print(parse.urlparse(url))

    6. # 输出
    7. # SplitResult(scheme='http', netloc='www.baidu.com', path='', query='name=hello&age=20', fragment='')
    8. # ParseResult(scheme='http', netloc='www.baidu.com', path='', params='', query='name=hello&age=20', fragment='')


转载于:https://juejin.im/post/5be3e92a6fb9a049e65fbbdb

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值