using System;

using System.Collections;

using System.Collections.Generic;

using System.Text;

using System.Text.RegularExpressions;

using System.Web;

using System.Net;

using System.IO;


/// <summary>

///MHtmlDocument 的摘要说明

/// </summary>

public class MHtmlDocument


    protected const string _NEXT_PART = "------=_NextPart_WIND";

    protected const string _4NEXT_PART = "----=_NextPart_WIND";

    protected string _encoding = "utf-8";

    protected string _pageVirutalPath;

    protected string _rootHttpVirtualPath;

    protected bool _enableBase64 = false;

    protected HtmlDocument _baseDocument;

    protected HttpRequest _request;

    protected HttpResponse _response;

    protected static readonly log4net.ILog _log = log4net.LogManager.GetLogger("MHtmlDocument");


    public string Encoding


        get { return _encoding; }



    public string RootHttpVirtualPath


        get { return _rootHttpVirtualPath; }



    public string PageVirtualPath


        get { return _pageVirutalPath; }



    public bool EnableBase64


        get { return _enableBase64; }

        set { _enableBase64 = value; }



    public HtmlDocument BaseDocument


        get { return _baseDocument; }



    public MHtmlDocument()


        _request = HttpContext.Current.Request;

        _response = HttpContext.Current.Response;

        _baseDocument = new HtmlDocument();



    public void LoadFromUrl(string url)



        if (url[0] == '.')

            FindPathDeepth(ref url);

        string contentType;

        string content = GetHttpString(url, out contentType, out _encoding);

        _baseDocument.Load(content, _encoding);



    public void LoadFromControl(string url, System.Web.UI.Control ctrl)


        StringWriter sw = new StringWriter();

        System.Web.UI.HtmlTextWriter text = new System.Web.UI.HtmlTextWriter(sw);


        Load(url, sw.ToString());



    public void Load(string url, string content)



        _baseDocument.Load(content, _encoding);



    public void AddLinkFile(LinkInfo link)





    #region Export

    public void ExportWord()





    public void ExportWord(string fileName)


        Export(fileName + ".doc", "application/ms-word");



    public void ExportExcel()





    public void ExportExcel(string fileName)


        Export(fileName + ".xls", "application/ms-excel");



    public void Export(string fileName, string contentType)


        _response.Buffer = true;


        _response.ContentEncoding = System.Text.Encoding.GetEncoding(_encoding);

        _response.AppendHeader("Content-Disposition", "attachment;filename=" + HttpUtility.UrlEncode(fileName));

        _response.ContentType = contentType;



        for (int i = 0; i < _baseDocument.LinkInfos.Count; ++i)

            if (_baseDocument.LinkInfos[i].uri.Length > 0)






    #region Output

    void Output(string s)





    void Output(byte[] buf)


        if (buf != null && buf.Length > 0)




    void AddMimePartHeader()


        Output("MIME-Version: 1.0/r/n");

        Output("Content-Type: multipart/related;/r/n");






    void AddPartSeperator()





    void AddHtmlPartHeader(string location)


        AddPartHeader(location, "text/html; charset=/"" + _encoding + "/"", " quoted-printable");



    void AddCssPartHeader(string location)


        AddPartHeader(location, "text/css", " quoted-printable");



    void AddPartHeader(string location, string contentType, string transferEncoding)





        Output("Content-Transfer-Encoding: ");



        Output("Content-Location: ");



        Output("Content-Type: ");





    void AddHtmlPart()






    void AddLinkPart(LinkInfo link)


        string contentType;

        if (link.type == LinkType.Text)



            string encodingType;

            Output(GetHttpString(link.uri, out contentType, out encodingType));




            byte[] buf = GetHttpData(link.uri, out contentType);

            AddPartHeader(, contentType, _enableBase64 ? "base64" : "binary");

            if (buf != null)


                if (_enableBase64)


                    string str = Convert.ToBase64String(buf);











    void AddFootPart()









    #region util

    public string GetHttpString(string url)


        string contentType, encodingType;

        return GetHttpString(url, out contentType, out encodingType);


    public string GetHttpString(string url, out string contentType, out string encodingType)


        url = BuildPath(url);

        AddSessionIdToUrl(ref url);

        contentType = "text/html; charset=/"utf-8/"";

        encodingType = "utf-8";

        HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url);



            WebResponse response = request.GetResponse();

            if (response != null)


                using (Stream responseStream = response.GetResponseStream())


                    contentType = response.ContentType.ToLower();

                    //string charset = "charset=";

                    //int pos = contentType.IndexOf(charset);

                    //if (pos >= 0)

                    //    encodingType = contentType.Substring(pos + charset.Length);

                    //else encodingType = "utf-8";

                    encodingType = ((HttpWebResponse)response).CharacterSet;

                    Encoding encode = System.Text.Encoding.GetEncoding(encodingType);

                    using (StreamReader reader = new StreamReader(responseStream, encode))


                        return reader.ReadToEnd();





        catch (Exception e)




        return string.Empty;



    public byte[] GetHttpData(string url, out string contentType)


        url = BuildPath(url);

        AddSessionIdToUrl(ref url);

        HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url);

        contentType = string.Empty;



            WebResponse response = request.GetResponse();

            if (response != null)


                contentType = response.ContentType;

                using (Stream responseStream = response.GetResponseStream())


                    using (MemoryStream mem = new MemoryStream())


                        byte[] buf = new byte[1024];

                        int len;

                        while ((len = responseStream.Read(buf, 0, buf.Length)) > 0)

                            mem.Write(buf, 0, len);


                        return mem.GetBuffer();








        return null;



    public void BuildVirtualPath(string url)


        if (url == null) return;

        if (url.StartsWith("http"))


            Uri uri = new Uri(url);

            _rootHttpVirtualPath = uri.Scheme + "://" + uri.Authority;

            _pageVirutalPath = _rootHttpVirtualPath + uri.AbsolutePath;




            Uri uri = _request.Url;

            _rootHttpVirtualPath = uri.Scheme + "://" + uri.Authority;

            if (url.StartsWith("/"))


                _pageVirutalPath = _rootHttpVirtualPath + url;




                _pageVirutalPath = _rootHttpVirtualPath + uri.AbsolutePath;

                int p = _pageVirutalPath.LastIndexOf("/");

                if (p > 0) _pageVirutalPath = _pageVirutalPath.Substring(0, p);

                _pageVirutalPath = BuildPath(_rootHttpVirtualPath, _pageVirutalPath, url);



        int pos = _pageVirutalPath.IndexOf("?");

        if (pos > 0)

            _pageVirutalPath = _pageVirutalPath.Substring(0, pos);


        pos = _pageVirutalPath.LastIndexOf("/");

        if (pos > 0) _pageVirutalPath = _pageVirutalPath.Substring(0, pos);



    public string BuildPath(string path)


        return BuildPath(_rootHttpVirtualPath, _pageVirutalPath, path);



    string BuildPath(string rootPath, string pageBasePath, string relative)


        if (relative.StartsWith("http")) return relative;

        else if (relative.StartsWith("."))


            int c = FindPathDeepth(ref relative);

            int j = pageBasePath.Length - 1;

            for (; j >= 0; --j)


                if (c <= 0) break;

                if (pageBasePath[j] == '/') --c;


            string s = pageBasePath.Substring(0, j + 1);

            return s + '/' + relative;


        else if (relative[0] == '/') return rootPath + relative;

        else return pageBasePath + "/" + relative;



    int FindPathDeepth(ref string relative)


        if (relative[0] != '.') return 0;

        int c = 0;

        int i = 0;

        for (; i < relative.Length; ++i)


            if (relative[i] != '.' && relative[i] != '/') break;

            if (relative[i] == '.' && relative.Length > i + 1)


                if (relative[i + 1] == '.')





                else if (relative[i + 1] == '/')






        relative = relative.Substring(i);

        return c;



    void AddSessionIdToUrl(ref string url)


      //add your session data needed to past here.





public class HtmlDocument


    private int _pos = -1;

    private string _html;

    private int _tagBegin = -1;

    private int _remove = -1;

    private string _qt;

    private string _encoding = "utf-8";

    private const string SCRIPT = "script";

    private StringBuilder _builder = new StringBuilder();

    private int _builderTageStartPos = 0;

    private Stack<string> _hiddenTags = new Stack<string>();

    private Stack<string> _scriptTags = new Stack<string>();

    private Tag _tag = new Tag();

    private List<LinkInfo> _links = new List<LinkInfo>();

    private static Regex _hrefAttribute = new Regex("href//s*=//s*[/"'](?<AttrValue>.*?)[/"']", RegexOptions.Compiled | RegexOptions.IgnoreCase);

    private static Regex _srcAttribute = new Regex("src//s*=//s*[/"'](?<AttrValue>.*?)[/"']", RegexOptions.Compiled | RegexOptions.IgnoreCase);

    private static Regex _typeAttribute = new Regex("type//s*=//s*[/"'](?<AttrValue>.*?)[/"']", RegexOptions.Compiled | RegexOptions.IgnoreCase);

    private SortedList<string, string> _hash = new SortedList<string, string>(StringComparer.CurrentCultureIgnoreCase);


    public HtmlDocument()


        _tag.content = new StringBuilder();



    public string QuotedPrintableString




            return _qt;




    public List<LinkInfo> LinkInfos


        get { return _links; }



    public void Load(string html)


        Load(html, _encoding);



    public void Load(string html, string encoding)


        _pos = -1;

        _html = html;

        _encoding = encoding;




    void Parse()


        while (++_pos < _html.Length)


            switch (_html[_pos])


                case '<':




                    if (_hiddenTags.Count == 0)





        _qt = QuotedPrintableEncoding.Encode(_builder, _encoding);



    void ReadTag()

    { = null;

        _tag.type = TagType.TagBegin;

        _tag.content.Remove(0, _tag.content.Length);



        _builderTageStartPos = _builder.Length - 1;

        int endIndex = -1;

        bool empty = true;

        int scriptPos = -1;

        bool isScript = false;

        bool accept = false;

        if (_hiddenTags.Count == 0) _remove = _builder.Length - 1;

        _tagBegin = _builder.Length - 1;

        while (++_pos < _html.Length)


            if (empty && (_html[_pos] == 's' || _html[_pos] == 'S'))


                isScript = true;

                scriptPos = 0;



            if (scriptPos >= 0 && scriptPos < SCRIPT.Length && char.ToLower(_html[_pos]) != SCRIPT[scriptPos++])

                isScript = false;



            if (_hiddenTags.Count == 0)



            switch (_html[_pos])


                case '>':

                    accept = true;


                case '<':

                    if (_scriptTags.Count > 0)



                        _tag.content.Remove(_tag.content.Length - 2, 1);

                        _builder.Remove(_builder.Length - 2, 1);

                        accept = true;



                case ' ':

                    if ( == null && !empty && _scriptTags.Count == 0)

               = _tag.content.ToString(1, _tag.content.Length - 2).ToLower();


                case '/':

                    if (empty)


                        endIndex = _tag.content.Length;

                        _tag.type = TagType.TagEnd;




                    empty = false;



            if (accept) break;



        //noattribute tags do not need

        if (isScript)

   = SCRIPT;

        else if (_tag.type == TagType.TagEnd && endIndex < _tag.content.Length && (_hiddenTags.Count > 0 || _scriptTags.Count > 0))

   = _tag.content.ToString(endIndex, _tag.content.Length - 1 - endIndex).ToLower();


        if (_tag.content.Length > 2 && _tag.content[_tag.content.Length - 2] == '/' && _tag.content[_tag.content.Length - 1] == '>')

            _tag.type = TagType.TagClosure;

        if ( != null) ProcessTag();



    void ProcessTag()


        if ( == SCRIPT)


            if (_tag.type == TagType.TagEnd)


            else _scriptTags.Push(SCRIPT);



        if (_tag.type == TagType.TagBegin || _tag.type == TagType.TagClosure)


            string v, uid;

            int p;

            string n =;

            switch (n)


                case "input":

                    v = GetTagAttributeValue(_typeAttribute, "type").ToLower();

                    _tag.type = TagType.TagClosure;

                    if (v == "hidden")


                        if (_tag.type == TagType.TagClosure)

                            _builder.Remove(_remove, _builder.Length - _remove);

                        else _hiddenTags.Push(;



                case "link":

                    if (_hiddenTags.Count > 0) break;

                    v = GetTagAttributeValue(_hrefAttribute, "href", out p);

                    if (p >= 0)


                        if (!_hash.TryGetValue(v,out uid))

                            uid = Guid.NewGuid().ToString();

                        _builder.Replace(v, uid, p + _builderTageStartPos, v.Length);

                        LinkInfo lk = new LinkInfo();

                        lk.uri = v;

               = uid;

                        lk.type = LinkType.Text;




                case "img":

                    if (_hiddenTags.Count > 0) break;

                    v = GetTagAttributeValue(_srcAttribute, "src", out p);

                    if (p >= 0)


                        if (!_hash.TryGetValue(v, out uid))

                            uid = Guid.NewGuid().ToString();

                        _builder.Replace(v, uid, p + _builderTageStartPos, v.Length);

                        LinkInfo ig = new LinkInfo();

                        ig.uri = v;

               = uid;

                        ig.type = LinkType.Binary;






        else if (_tag.type == TagType.TagEnd)


            if (_hiddenTags.Count > 0)


                string s = _hiddenTags.Peek();

                if (s ==



                    if (_hiddenTags.Count == 0)

                        _builder.Remove(_remove, _builder.Length - _remove);







    void AddLink(LinkInfo link)


        if (_hash.ContainsKey(link.uri)) return;

        else _hash.Add(link.uri,;




    string GetTagAttributeValue(Regex regex, string attr)


        if ( == null) return string.Empty;

        Match m = regex.Match(_tag.content.ToString());

        if (m.Success)


            Group g = m.Groups["AttrValue"];

            if (g != null) return g.Value.ToLower();


        return string.Empty;


    string GetTagAttributeValue(Regex regex, string attr, out int pos)


        pos = -1;

        if ( == null) return string.Empty;

        Match m = regex.Match(_tag.content.ToString());

        if (m.Success)


            Group g = m.Groups["AttrValue"];

            if (g != null)


                pos = g.Captures[0].Index;

                return g.Value;



        return string.Empty;




public enum TagType { TagBegin, TagEnd, TagClosure }

public class Tag


    public string name;

    public TagType type;

    public StringBuilder content;



public enum LinkType { Text, Binary }

public class LinkInfo


    public string uri;

    public string id;

    public LinkType type;



public class QuotedPrintableEncoding


    private const byte EQUALS = 61;

    private const byte CR = 13;

    private const byte LF = 10;

    private const byte SPACE = 32;

    private const byte TAB = 9;

    private const int CHAR_COUNT_PER_ENCODING = 512;


    private static void InitBuffer(Encoding encoding, out int blockSize, out byte[] buf)


        blockSize = encoding.GetMaxByteCount(CHAR_COUNT_PER_ENCODING);

        buf = new byte[blockSize];



    public static string Encode(StringBuilder builder)


        return Encode(builder, "utf-8");



    public static string Encode(string str)


        return Encode(str, "utf-8");



    public static string Encode(string str, string encodingType)


        StringBuilder encoded = new StringBuilder();

        string hex = string.Empty;

        byte[] buffer;

        int _bBlockSize;

        Encoding encoding = Encoding.GetEncoding(encodingType);

        InitBuffer(encoding, out _bBlockSize, out buffer);


        int start = 0;

        int len = 0;

        while (start < str.Length && (len = encoding.GetBytes(str, start, Math.Min(CHAR_COUNT_PER_ENCODING, str.Length - start), buffer, 0)) > 0)


            for (int i = 0; i < len; i++)


                //these characters must be encoded

                if ((buffer[i] < 33 || buffer[i] > 126 || buffer[i] == EQUALS)

                    && buffer[i] != CR && buffer[i] != LF && buffer[i] != SPACE)


                    hex = buffer[i].ToString("X");

                    if (hex.Length < 2)

                        hex = "0" + hex;

                    encoded.Append("=" + hex);




                    if ((i + 1) < len)


                        //if TAB is at the end of the line - encode it!

                        if (buffer[i] == TAB && (buffer[i + 1] == LF || buffer[i + 1] == CR))


                            encoded.Append("=0" + buffer[i].ToString("X"));


                        //if SPACE is at the end of the line - encode it!

                        else if (buffer[i] == SPACE && (buffer[i + 1] == LF || buffer[i + 1] == CR))

                            encoded.Append("=" + buffer[i].ToString("X"));




                    else encoded.Append(Convert.ToChar(buffer[i]));



            start += CHAR_COUNT_PER_ENCODING;


        return encoded.ToString();



    public static string Encode(StringBuilder builder, string encodingType)


        StringBuilder encoded = new StringBuilder();

        string hex = string.Empty;

        byte[] buffer;

        Encoding encoding = Encoding.GetEncoding(encodingType);

        int _bBlockSize;

        InitBuffer(encoding, out _bBlockSize, out buffer);

        char[] _bBuf = new char[_bBlockSize];


        int _bLen = builder.Length;

        int _bStart = 0;

        int _bRealLen, start, len;


        while (_bStart < _bLen)


            _bRealLen = Math.Min(_bBlockSize, _bLen - _bStart);

            builder.CopyTo(_bStart, _bBuf, 0, _bRealLen);

            _bStart += _bRealLen;


            start = len = 0;

            while (start < _bRealLen

                && (len = encoding.GetBytes(_bBuf, start, Math.Min(CHAR_COUNT_PER_ENCODING, _bRealLen - start), buffer, 0)) > 0)


                for (int i = 0; i < len; i++)


                    //these characters must be encoded

                    if ((buffer[i] < 33 || buffer[i] > 126 || buffer[i] == EQUALS)

                        && buffer[i] != CR && buffer[i] != LF && buffer[i] != SPACE)


                        hex = buffer[i].ToString("X");

                        if (hex.Length < 2)

                            hex = "0" + hex;

                        encoded.Append("=" + hex);




                        if ((i + 1) < len)


                            //if TAB is at the end of the line - encode it!

                            if (buffer[i] == TAB && (buffer[i + 1] == LF || buffer[i + 1] == CR))


                                encoded.Append("=0" + buffer[i].ToString("X"));


                            //if SPACE is at the end of the line - encode it!

                            else if (buffer[i] == SPACE && (buffer[i + 1] == LF || buffer[i + 1] == CR))

                                encoded.Append("=" + buffer[i].ToString("X"));




                        else encoded.Append(Convert.ToChar(buffer[i]));



                start += CHAR_COUNT_PER_ENCODING;



        return encoded.ToString();



    public static string Decode(string chars)


        return Decode(chars, "utf-8");



    public static string Decode(string chars, string encodingType)


        byte[] bytes = new byte[chars.Length];

        int bytesCount = 0;


        for (int i = 0; i < chars.Length; i++)


            // if encoded character found decode it

            if (chars[i] == '=')


                bytes[bytesCount++] = Convert.ToByte(int.Parse(chars[i + 1].ToString() + chars[i + 2].ToString(), System.Globalization.NumberStyles.HexNumber));


                i += 2;




                bytes[bytesCount++] = Convert.ToByte(chars[i]);



        return System.Text.Encoding.GetEncoding(encodingType).GetString(bytes, 0, bytesCount);







MHtmlDocument doc=new MHtmlDocument();








