匹配标签的正则(用于抽取纯文本)

 首先放结果:

(\n|[ \t])*<([^>"']*|"[^"]*"|'[^']*')*>(\n|[ \t])*

创作步骤:

  1. 最简单最基础的匹配模式:
    <[^>]*>

     

  2. 如果标签中的文本属性中含有 <> 字符怎么办呢?一开始考虑用平衡组,想了一下感觉杀鸡用牛刀,直接选用了 "[^"]*" 模式:
    <([^>"]*|"[^"]*")*>

     

  3. 同理,增加 '[^']*' 模式:
    <([^>"']*|"[^"]*"|'[^']*')*>

     

  4. 按道理到了这里就可以结束了,如果想要一次性到位将多余的换行和前导后导空白也匹配上的话可以略做修饰:
    (\n|[ \t])*<([^>"']*|"[^"]*"|'[^']*')*>(\n|[ \t])*

     

  5. 将所有匹配到的文本全部替换为空文本即可。

转载于:https://www.cnblogs.com/rexfield/p/9185630.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值