抓取和分析网页的类。
主要功能有:
1、提取网页的纯文本,去所有html标签和javascript代码
2、提取网页的链接,包括href和frame及iframe
3、提取网页的title等(其它的标签可依此类推,正则是一样的)
4、可以实现简单的表单提交及cookie保存
using System;
using System.Data;
using System.Configuration;
using System.Net;
using System.IO;
using System.Text;
using System.Collections.Generic;
using System.Text.RegularExpressions;
using System.Threading;
using System.Web;
///
/// 网页类
///
public class WebPage
{
#region
私有成员
private Uri
m_uri; //网址
private
List
m_links; //此网页上的链接
private
string
m_title; //此网页的标题
private
string
m_html; //此网页的HTML代码
private
string
m_outstr; //此网页可输出的纯文本
private bool