网页采集时,常用的几种正则表达式

最新推荐文章于 2024-05-06 20:29:22 发布

weixin_30865427

最新推荐文章于 2024-05-06 20:29:22 发布

阅读量128

点赞数

原文链接：http://www.cnblogs.com/zzmzaizai/archive/2007/12/26/1015421.html

版权

1，得到网页上的链接地址：
      string matchString = @"<a[^>]+href=\s*(?:'(?<href>[^']+)'|""(?<href>[^""]+)""|(?<href>[^>\s]+))\s*[^>]*>";
2，得到网页的标题：
      string matchString = @"<title>(?<title>.*)</title>";
3，去掉网页中的所有的html标记：
      string temp = Regex.Replace(html, "<[^>]*>", "");   //html是一个要去除html标记的文档
4, string matchString = @"<title>([\S\s\t]*?)</title>";
5,js去掉所有html标记的函数：
      function delHtmlTag(str)
     {
        return str.replace(/<\ .+?>/g,"");//去掉所有的html标记
     }
   这个可能IE5会错，那用这个，梅花的：
    function delHtmlTag(str)
{
   return str.replace(/<[^>]+>/g,"");//去掉所有的html标记
}

转载于:https://www.cnblogs.com/zzmzaizai/archive/2007/12/26/1015421.html