之后就对它进行分析!提取里面有用的东西!因为网页本身也有连接,所以可以捕获里面的URL连接,在对每一个连接进行分析,如此进行一个死循环,通过正则表达式提取自己想要的东西!
WebClient wb = new WebClient(); //创建一个WebClient实例
//获取或设置用于对向 Internet 资源的请求进行身份验证的网络凭据。(可有可无)
//wb.Credentials=CredentialCache.DefaultCredentials;
//从资源下载数据并返回字节数组。(加@是因为网址中间有"/"符号)
byte[] pagedata = wb.DownloadData(@url);
//转换字符、
string result = Encoding.Default.GetString(pagedata);
txtBody.Text = result; //txtBody要获取的html代码
return result;
}
还有另外的一种方法得到html代码
public string LoadHtmlCode(string strHtml)
{
//WebClient myWebClient = new WebClient();
//byte[] myDataBuffer = myWebClient.DownloadData(remoteUri);
//download = Encoding.Default.GetString(myDataBuffer);
string[] aryReg ={
@"<script[^>]*?>.*?</script>",
@"<(///s*)?!?((/w+:)?/w+)(/w+(/s*=?/s*(([""'])(//[""'tbnr]|[^/7])*?/7|/w+)|.{0})|/s)*?(///s*)?>",
@"([/r/n])[/s]+",
@"&(quot|#34);",
@"&(amp|#38);",
@"&(lt|#60);",
@"&(gt|#62);",
@"&(nbsp|#160);",
@"&(iexcl|#161);",
@"&(cent|#162);",
@"&(pound|#163);",
@"&(copy|#169);",
@"&#(/d+);",
@"-->",
@"<!--.*/n"
};
string[] aryRep = {
"",
"",
"",
"/"",
"&",
"<",
">",
" ",
"/xa1",//chr(161),
"/xa2",//chr(162),
"/xa3",//chr(163),
"/xa9",//chr(169),
"",
"/r/n",
""
};
string newReg = aryReg[0];
string strOutput = strHtml;
for (int i = 0; i < aryReg.Length; i++)
{
Regex regex = new Regex(aryReg[i], RegexOptions.IgnoreCase);
strOutput = regex.Replace(strOutput, aryRep[i]);
}
strOutput.Replace("<", "");
strOutput.Replace(">", "");
strOutput.Replace("/r/n", "");
return strOutput;
}
下面要做的就是如何从html代码里匹配出URL
//程序是一个设计到数据库的操作,下面数据库相关的操作都已经屏蔽掉方便大家阅读
public void SearchURL(string Url)
{
string url = Url.ToString().Trim();
//如果你要开发邮件地址搜集器,strRegex = " [/w-]+@([/w-]+/.)+[/w-]+ " 即可
System.Net.WebClient client=new WebClient();
byte[] page = client.DownloadData(url);
string content=System.Text.Encoding.UTF8.GetString(page);
string regex=@"http://([/w-]+/.)+[/w-]+(/[/w- ./?%&=]*)?";
// string regex = "href=[///"///'](http://|//.///|///)?//w+(//.//w+)*(/w+(//.//w+)?)*(///|//?//w*=//w*(&//w*=//w*)*)?[///"///']";
Regex re=new Regex(regex);
MatchCollection matches=re.Matches(content);
System.Collections.IEnumerator enu=matches.GetEnumerator();
while(enu.MoveNext() && enu.Current!=null)
{
Match match=(Match)(enu.Current);
//Console.Write(match.Value+"/r/n");
// Response.Write(match.Value + "/r/n");
//dglURL.Items.Add(match.Value.ToString());
// list.Add(match.Value.ToString());
jinhua.Bll.SearchURL.insertUrl(match.Value.ToString());
}
//dglURL.DataSource = list;
//dglURL.DataBind();
}