php使用正则表达式做爬虫,基于PHP/CURL/codeIgniter的Spider Webbot爬虫[6]-PHP关于正则表达式的函数preg...

preg_replace(pattern,replacement,subject)

pattern模式,其实就是要查找的字段。不能是数字,字母。如果是数字和字母的话,要用/string/来表示

replacement替换字段 要替换上的string,可以是任意

subject操作目标,这里可以是一段string,也可以使一个变量,或者一个http_get()。

preg_match(pattern,subject)这个只返回bool真假

preg_match_all(pattern,subject,result_array)这个在返回bool真假的同时,还会返回一个二维数组,里面有相似的字符,还有把这个string作为一个数组元素

preg_split(pattern,subject)

如果在subject中找到了pattern,就在该处进行切割,并且不保留pattern

//返回result_array[0]=前半段,result_array[1]=后半段

$subject_string="there are 129 stories about Tim and another 3129 about Tom";

/这是要匹配的内容/ 这是pattern

$subject_string //这是target字符串

preg_match_all("/\d/",$subject_string,$matches_array);

$matches_array=Array([0]=>1 [1]=>2 [2]=>9)

\跳脱符

匹配数字

\d可以表示单独一个数字,这样一个下标代表一个数字

\d\d\d 可以代表3个数字,并且一个下标代表三个数字

\d+表示取一整块数字,直到最后一位不是数字

匹配字母

\D匹配一个字母,

\D\D\D匹配3个字母,但是,如果不加上\b进行边界定位,就会匹配所有含有三个字母的情况

比如Tom,Tom,There之中的the,也会被抓取

/\b\D\D\D\b/这样可以正确匹配3个字母,等价于/\b\D{3}\b/

万用字元

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值