推荐一个在线正则表示试测试网站:http://tool.oschina.net/regex/#
1,得到网页上的链接地址:
string matchString = @"<a[^>]+href=\s*(?:'(?<href>[^']+)'|""(?<href>[^""]+)""|(?<href>[^>\s]+))\s*[^>]*>";
2,得到网页的标题:
string matchString = @"<title>(?<title>.*)</title>";
3,去掉网页中的所有的html标记:
string temp = Regex.Replace(html, "<[^>]*>", ""); //html是一个要去除html标记的文档
4, string matchString = @"<title>([\S\s\t]*?)</title>";
5,js去掉所有html标记的函数:
function delHtmlTag(str)
{
return str.replace(/<[^>]+>/g,"");//去掉所有的html标记
}
6.匹配img标签的正则式(可以直接放在java中,如果是其他语言使用,应把\\替换为\):
<img[^>]+src\\s*=\\s*[
'\"]([^'
\"]+)['\"][^>]*>
7.
获取超链接<a href=..></a>之间内容
通常在使用正则表达式时,需要分析网页链接,获取URL或网页内容。核心代码如下:
res = r'<a .*?>(.*?)</a>'
mm = re.findall(res, content, re.S|re.M)
res_url=r'href="(.*?)"'
以下几个链接地址看看应该就够了
链接地址:http://guyuetianc-163-com.iteye.com/blog/1585103
链接地址:https://www.oschina.net/code/snippet_76860_5964
链接地址: https://www.cnblogs.com/171207xiaohutu/p/8001001.html