正则表达式匹配网页标签内容

推荐一个在线正则表示试测试网站:http://tool.oschina.net/regex/#

1,得到网页上的链接地址:
string matchString = @"<a[^>]+href=\s*(?:'(?<href>[^']+)'|""(?<href>[^""]+)""|(?<href>[^>\s]+))\s*[^>]*>";
2,得到网页的标题:
string matchString = @"<title>(?<title>.*)</title>";
3,去掉网页中的所有的html标记:
string temp = Regex.Replace(html, "<[^>]*>", ""); //html是一个要去除html标记的文档

4, string matchString = @"<title>([\S\s\t]*?)</title>";
5,js去掉所有html标记的函数: 
function delHtmlTag(str)
{
return str.replace(/<[^>]+>/g,"");//去掉所有的html标记

}

6.匹配img标签的正则式(可以直接放在java中,如果是其他语言使用,应把\\替换为\):

<img[^>]+src\\s*=\\s*['\"]([^'\"]+)['\"][^>]*>

7.获取超链接<a href=..></a>之间内容

 通常在使用正则表达式时,需要分析网页链接,获取URL或网页内容。核心代码如下:
        res = r'<a .*?>(.*?)</a>'
        mm =  re.findall(res, content, re.S|re.M)

        res_url=r'href="(.*?)"'

 

 

以下几个链接地址看看应该就够了

链接地址:http://guyuetianc-163-com.iteye.com/blog/1585103

链接地址:https://www.oschina.net/code/snippet_76860_5964

链接地址:   https://www.cnblogs.com/171207xiaohutu/p/8001001.html

链接地址:   https://zhidao.baidu.com/question/186581265.html

链接地址:   https://zhidao.baidu.com/question/356689422.html

  • 2
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值