爬虫数据的提取--正则

数据的提取

​ 简单的说,数据提取就是从响应中获取我们想要的数据的过程

数据的分类

  • 非结构化的数据:html等

    处理方法:正则,xpath

  • 结构化的数据:json,xml等

    处理方法:转化为python数据类型

正则表达式

​ 正则表达式又称为规则表达式,通常被用来检索和替换哪些符合某个规则的文本
这里写图片描述

正则表达式匹配规则

这里写图片描述

python中的re模块
  • python中可以用内置的re模块来使用正则表达式

  • python中原始字符串r

    ​ 利用原始字符串可以匹配特殊符号,如果不行则需要对特殊符号进行转义

  • re模块的使用步骤

    1. 使用 compile() 函数将正则表达式的字符串形式编译为一个 Pattern 对象
    2. 通过 Pattern 对象提供的一系列方法对文本进行匹配查找,获得匹配结果,一个 Match 对象。
    3. 最后使用 Match 对象提供的属性和方法获得信息,根据需要进行其他的操作
  • compile函数

    ​ compile函数用于编译正则表达式,生成一个pattern对象

  • pattern对象常用方法

    • match 方法:从起始位置开始查找,一次匹配

    • search 方法:从任何位置开始查找,一次匹配

    • findall 方法:全部匹配,返回列表

    • finditer 方法:全部匹配,返回迭代器

    • split 方法:分割字符串,返回列表

    • sub 方法:替换

    在爬虫一般用的比较多的方法是findall

  • 贪婪模式与非贪婪模式

    1. 贪婪模式:在整个表达式匹配成功的前提下,尽可能多的匹配 ( * );
    2. 非贪婪模式:在整个表达式匹配成功的前提下,尽可能少的匹配 ( ? );
    3. Python里数量词默认是贪婪的。

    正则表达式是提取数据最快的方法,一般较为复杂,用来查找指定数据

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值