正则表达式—从HTML里提取内容

tags: #正则表达式 #HTML提取

记录收集我测试过的正则表达式,以便备查备用

  • 匹配任意字符不能跨行:.*
  • 匹配任意字符包括换行符等:[\s\S]*

  • 捕获某前缀与某后缀之间的任意字符:(.*?)
    使用情况举例,捕获下面HTML中的文字“不迟any
    HTML:<a href='http://www.cnblogs.com/buchiany/'>不迟any</a>
    匹配的正则表达式:<a.*?>(.*?)<\/a>
    成功测试适用于:Python 3.x

  • 匹配任意空白(包含空格、\f换页符、\n换行符、\r回车符、\t制表符、\v垂直制表符):[\s]*
    使用情况举例,匹配下面HTML内容里第一行<tr>和第三行<th>,之间跨越了空白

HTML:

要匹配的内容第一部分<tr> 

   <th>要匹配的内容第二部分

匹配的正则表达式:<tr>[\s]*<th>
成功测试适用于:Python 3.x


相关:

强烈推荐正则表达式在线测试工具:regex101

[正文结束]


[参考]

  1. https://regex101.com/
  2. http://www.jb51.net/article/28997.htm
  3. http://www.oschina.net/question/12_9507

[更新记录]
2016-12-19, 初建笔记。添加了2条

转载于:https://www.cnblogs.com/buchiany/p/6379124.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值