爬虫必须学会的正则表达式

实际上爬虫一共就四个主要步骤:

  1. 明确目标 (要知道你准备在哪个范围或者网站去搜索)
  2. 爬 (将所有的网站的内容全部爬下来)
  3. 取 (去掉对我们没用处的数据)
  4. 处理数据(按照我们想要的方式存储和使用)

 

模式修正符的构成 
模式修正符就是字母,只不过这些在模式修正符的应用之中有特殊的含义。下面我来看看都有哪些模式修正符,请看下表: 

模式修正符说明
i表示在和模式进行匹配进不区分大小写
m将模式视为多行,使用^和$表示任何一行都可以以正则表达式开始或结束
s如果没有使用这个模式修正符号,元字符中的"."默认不能表示换行符号,将字符串视为单行
x表示模式中的空白忽略不计
e正则表达式必须使用在preg_replace替换字符串的函数中时才可以使用(讲这个函数时再说)
A以模式字符串开头,相当于元字符^
Z以模式字符串结尾,相当于元字符$
U正则表达式的特点:就是比较“贪婪”,使用该模式修正符可以取消贪婪模式

例如: 

$str1 = <<<str
        <div class="e_box e_ProductBox-001 p_Product" dataId=812 data-dismoveable data-foreachitem>
            33333333
        </div>
str;
        $str = preg_replace("/[\t\n\r]+/","",$str1);    // 过滤换行空格等
        $partern = '/<div class="e_box e_ProductBox-001 p_Product" (.*?)>(.+?)<\/div>/';// 正则匹配式
        $str = "<h1>1111</h1><H1>2222</H1>";
        $partern = '/<h(\d)>.*?<\/h\1>/i';      // \d  数字0-9的任意数字  i 不区分大小写
        preg_match_all($partern,$str,$match);
        dump($match);

 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值