spider的 c#实现

最新推荐文章于 2024-06-29 22:35:03 发布

hzgood

最新推荐文章于 2024-06-29 22:35:03 发布

阅读量1.8k

点赞数

文章标签： c# string stream null url regex

本文链接：https://blog.csdn.net/hzgood/article/details/77201

版权

以前看到很多关于spider , crawler , robot的的一些介绍, 闲着无聊自己就try ,try ; 完美实现可能无法完称;

spider 的实现最基本的几个方法;

1:根据url地址取得网页内容;

2:根据网页内容取得它所包含的所有url地址;

一下为两个方法;

-----------------------------------------------------

//取得网页内容；
  public static string getHtmlContent(string url)
  {
   string resultStr = string.Empty;
   System.Net.HttpWebRequest hreq = null;
   System.Net.HttpWebResponse hrep = null;
   Stream stream = null ;
   StreamReader sReader = null ;
   try
   {
    hreq = (HttpWebRequest)WebRequest.Create(url);
    hrep = (HttpWebResponse)hreq.GetResponse();
    stream = hrep.GetResponseStream();
    sReader = new StreamReader(stream,System.Text.Encoding.Default);
    resultStr = sReader.ReadToEnd();
   }
   finally
   {
    sReader.Close();
    stream.Close();
    hrep.Close();
   }
   return resultStr;

}

2://取得page中的超连接地址；
  public static ArrayList getHttpUrlList(string page,string curUrl, int index_s)
  {
   ArrayList urlList= new ArrayList(25) ;
   Regex r;
   string urlStr = string.Empty;
   try
   {
    r = new Regex("(?<=//s+href//s*=)//s*(?:(?<url>/"//w*/")|(?<url>[^>//s]*))");
    MatchCollection mc1 = r.Matches(page);
    urlList.Clear();
    foreach(Match m1 in mc1)
    {
     urlStr = CompleteUrl(m1.Value,curUrl);
     if(!urlList.Contains(urlStr)) urlList.Add(urlStr);

    }
   }
   catch(Exception e)
   { MessageBox.Show("进行正则匹配时出错"+e.Message); return null ;}
   return urlList;
  }
//标准url地址;
  private static string CompleteUrl(string oldUrl,string curUrl)
  {
   //1
   oldUrl = oldUrl.Replace("/"","").ToLower();
   oldUrl = oldUrl.Replace("'","");
   //2
   if(!oldUrl.ToLower().StartsWith("http:"))
    oldUrl = curUrl+"/"+oldUrl;
   //3
   oldUrl = oldUrl.Replace("http://","");
   oldUrl = oldUrl.Replace("http://","");
   oldUrl = oldUrl.Trim();

   return oldUrl;

  }