.NET中获取HTML页面并提取其中的超链接

下列的函数分别用于获取HTML页面和提取页面中的超链接。

using  System.Net;
using  System.IO;
using  System.Text;
using  System.Text.RegularExpressions;

string [] GetLink( string  strHtml)
{
    Regex reg 
=   new  Regex( " href[//s//r]*=[//s//r]*[/"/']{0,1}([^/"/'//s//r>]*)[/"/'//s//r]{0,1} " , RegexOptions.IgnoreCase);
    MatchCollection mc 
=  reg.Matches(strHtml);
    
if  (mc.Count  >   0 )
    {
        
string [] strHref  =   new   string [mc.Count];
        
int  i  =   0 ;
        
foreach  (Match m  in  mc)
        {
            strHref[i] 
=  m.Groups[ 1 ].Value;
            
++ i;
        }
        
return  strHref;
    }
    
return   null ;
}

string  GetHttp( string  strUrl)
{
    
string  strHtml  =   "" ;
    WebResponse wrp 
=   null ;

    
try
    {
        WebRequest wrq 
=  WebRequest.Create(strUrl);
        wrq.Timeout 
=   60000 ;
        wrp 
=  wrq.GetResponse();
    }
    
catch  (WebException e)
    {

    }
    
catch  (Exception e)
    {

    }
    
finally
    {
        
if  (wrp  !=   null )
        {
            StreamReader sr 
=   new  StreamReader(wrp.GetResponseStream(), Encoding.GetEncoding( " GB2312 " ));
            strHtml 
=  sr.ReadToEnd();
            sr.Close();
            wrp.Close();
        }
    }

    
return  strHtml;
}

可首先使用GetHttp获取指定URL的页面内容,然后将此内容作为参数传给GetLink,GetLink返回的String数组中的每个元素代表一个超链接。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值