ASP.NET使用正则表达式抓取网页中的全部链接

添加如下命名空间
using System.Text.RegularExpressions;
using System.IO;
using System.Collections;
using System.Net;

关键代码:
(使用TextBox1获取网址,在TextBox2中显示该网页中的所有链接)

String web_url = this.TextBox1.Text.Trim();
//要获取的网址URL
String code = String.Empty;
//存放网页的源文件
HttpWebRequest request = (HttpWebRequest)WebRequest.Create(web_url);
WebResponse response = request.GetResponse();
StreamReader sr = new StreamReader(response.GetResponseStream());
//获取源文件
code = sr.ReadToEnd();
sr.Close();
ArrayList list = new ArrayList();
//用来存放链接
String reg = @" http://([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?";
//链接的正则表达式
Regex regex = new Regex(reg, RegexOptions.IgnoreCase);
MatchCollection mc = regex.Matches(code);
//存放匹配的集合
for (int i = 0; i < mc.Count; i++)
     {
        bool hasExist = false;
        //链接存在与否的标记
        String name = mc[i].ToString();
        foreach (String one in list)
             {
                if (name == one)
                      {
                          hasExist = true;
                          //链接已存在
                          break;
                      }
            }
        //链接不存在,添加
        if (!hasExist) this.TextBox2.Text += name + "\n";
    }

转载于:https://www.cnblogs.com/jerrypen/archive/2011/09/22/2185666.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值