作业内容要求:
使用多线程、并行编程或异步编程技术实现爬虫程序;
接收用户输入的关键字,用户点击搜索时使用baidu,bing等搜索引擎搜索关键字;
从搜索的网页中寻找100个有效的、不重复的身份证号码,并记录每个身份证号码所属的url(可能有多个);
显示已爬取的URL。
在这里我们可以学习到自定义异常类,网页地址的爬取,以及关键词搜索在各大浏览器中的使用简单的带参数多线程的使用,listview列表如何建立。
自定义异常类:
public class TextException : ApplicationException
{
private string error;
public TextException(string message) : base(message)
{
this.error = message;
}
public string getMassege()
{
return error;
}
}
自定义要记得继承某一个已经存在的父类异常类,定义类属性以及类方法,之后的使用一般这么抛出throw new TextException("请不要在两个文本框内同时输入内容!");
根据网页的url爬取获得网页的内容的两种方法:
public string GetContentFromUrl(string URL)
{
try
{
string strBuff = "";
int byteRead = 0;
char[] cbuffer = new char[256];
HttpWebRequest httpReq = (HttpWebRequest)WebRequest.Create(new Uri