php文章里的html标签,php匹配HTML标签

前言

php经常需要去匹配html标签,然而由于html标签可能有很多个重复的,甚至可能含有一些嵌套,因此匹配困难。

一、php正则问号的用法

1、只想匹配字符“?”

需要进行转义,即\?

2、用于非贪婪匹配

即最近匹配:【贪婪】

模式:a.*c

字符串:abcabc

匹配结果:abcabc

【非贪婪】

模式:a.*?c

字符串:abcabc

匹配结果:abc

常用:

(1)*? 重复任意次,但尽可能少

(2)+?重复1次或更多次,但尽可能少

(3)?? 重复0次或1次,但尽可能少

(4){n,m}? 重复n到m次,但尽可能少

(5){n,}? 重复n次以上,但尽可能少

3、不捕捉模式?:

意思就是对于不想要用()捕捉到的数据,加一个?:即可,例如:模式:(?:aaa)(bbb)

匹配结果: $1=bbb

aaa不会被$1捕捉到

二、php匹配任意字符(含换行符)的bug

1、[.\n]*?

完全不行……原因未知

2、.*?

可以,需要在后面加/s,复习:

(1)i 不区分大小写

(2)s 模式中的.匹配所有字符,包括换行符

3、(.|\n)*?

感觉上是可以的,但是对于很长很长的字符串,比如文章《三国高级辅助_v1.0》的内容,就不行,没匹配完就结束了,导致文章无法显示。

据《关于php中正则匹配包括换行符在内的任意字符的问题总结》说,是和php所绑定的PCRE库版本有关,可我用得是php7.0啊……

4、[\s\S]*?

最佳匹配方式,这里的

(1)\s 匹配任意空白字符,包括换行符, 等价于[\f\n\r\t\v]

(2)\S匹配任意非空白字符,等价于 ^[\f\n\r\t\v]

合起来就是匹配所有字符。

三、匹配HTML标签:pre code

需要匹配

  
,只要文本不出现这个标签,就可以这样匹配:/
([\s\S]*?)/i
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值