python爬虫学习5

python爬虫学习5

基本库的使用

  • urllib的使用
    • 四个模块
      • request:最基本的HTTP请求模块,可以模拟请求的发送。
      • error:异常处理模块
      • parse:一个工具模块。提供了许多URL处理方法
      • robotparser:主要用来识别网站的robot.txt文件,然后判断那些网站可以爬
    • urllib.parse 中的编码与解码
      • 用于解析url
      • 当我们使用url时,其中不能够出现中文,这时就需要我们使用其中的方法来进行转码
      • 例如我们搜索冰墩墩
      # 
      在浏览器显示的url为: 
      https://www.baidu.com/s?wd=冰墩墩&ie=utf-8&tn=15007414_2_pg
      但是我们将它复制下来:
      https://www.baidu.com/s?wd=%E5%86%B0%E5%A2%A9%E5%A2%A9&ie=utf-8&tn=15007414_2_pg
      所以我们想要使用中文就要进行转码
      

      使用urllib.parse.urlencode方法

      import urllib.parse
      # 在原链接中 其为 wd = ** 的格式对应python的字典格式
      dic_0 = {
             'wd': '冰墩墩'}
      
      result_1 = urllib.parse.urlencode(dic_0)
      print(result_1)
      
      # 把编码后的东西给解码
      result_2 &
  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值