爬虫数据处理

  • 爬虫数据解析与提取
    • 正则表达式规则
    1. 普通字符语法
      在这里插入图片描述

    2. 预定义字符集语法
      在这里插入图片描述

    3. 数量词语法
      在这里插入图片描述
      贪婪与非贪婪:
      作用:控制数量词的匹配个数
      用法:默认是使用贪婪模式;在数量词后加上一个?后,则表示使用非贪婪模式
      匹配后贪婪与非贪婪模式的匹配个数:
      在这里插入图片描述

      In [35]: re.match("\d+.\d{2,6}", “3.1415926”).group()
      Out[35]: ‘3.141592’
      In [36]: re.match("\d+.\d{2,6}?", “3.1415926”).group()
      Out[36]: ‘3.14’

    4. 边界匹配语法
      在这里插入图片描述
      \b相当于\w和\W的边界,可以用来匹配出单词;
      \B则常用来判断单词的连贯性;
      注意:必须使用r,将字符串变为正则模式,因为\b在普通字符串中也是具有含义的。

    5. 逻辑、分组语法
      在这里插入图片描述

    6. 特殊构造语法
      在这里插入图片描述


  • xpath
  1. 节点选取基本路径表达式:
    在这里插入图片描述

  2. 节点选取通配符
    在这里插入图片描述

  3. Xpath谓语条件
    所谓"谓语条件

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值