HTMLParser使用

最新推荐文章于 2021-02-24 01:37:50 发布

qq469236803

最新推荐文章于 2021-02-24 01:37:50 发布

阅读量554

点赞数

分类专栏： web前端 html js

本文链接：https://blog.csdn.net/toolazytoname/article/details/8624723

版权

web前端 html js 专栏收录该内容

34 篇文章 0 订阅

订阅专栏

HTMLParser使用详解（1）- 初始化Parser

博客分类：
搜索引擎

.net 搜索引擎 HTML 工作

在研究搜索引擎的开发中，对于HTML网页的处理是核心的一个环节。网上有很多开源的代码，对于Java来说，HTMLParser是比较著名并且得到广泛应用

1.第一步，随便搜了一下下下来，htmlParser下载下来。编译出错，发现缺了个ICSharpCode.SharpZipLib.dll，再下个dll。就ok了。

2.看教程，首页的，那个教程，看着不错，一步步的，基本上就差不多了。虽说我用C#，教程是java的，其实一样。

还碰到两个问题

1.发现原始的数据不管用，在我删了好几大段，

//]]>
</script>

之后就管用了，也不知道是不是这玩意儿捣乱，这个得查源码。刚开始是用手工删除的，后来发现可行，补上了一段代码，用正则，把脚本全给去掉。还是正则给力。

当年还是仔细看过正则的，可是我又忘了，搜了一个，于是。代码如下。

            string regexstring = "(?i)(<SCRIPT)[\\s\\S]*?((</SCRIPT>)|(/>))";
            if (Regex.IsMatch(htmlcode,regexstring))
            {
                htmlcode = Regex.Replace(htmlcode, regexstring, "");
            }

2.还有个问题，编码的问题，之前一直都是显示乱码。

我的html是通过文件读取的，原来是读取文件的时候，的编码问题，最后贴上代码。

protected void Page_Load(object sender, EventArgs e)
        {
            string htmlcode="";
            string path = "C:\\Users\\weichao\\Desktop\\2.htm";
            using(StreamReader sr = new StreamReader(path,Encoding.Default))//path是你的txt文件的路径
            //using (StreamReader sr = File.OpenText(path))//path是你的txt文件的路径
            {
                string s="";
                while((s=sr.ReadLine())!=null)

                {
                    htmlcode+=s;
                }
            }
          Response.Write(htmlcode);

#region parse

            Parser parser = Parser.CreateParser(htmlcode, "GBK");
           // Parser parser = Parser.CreateParser(htmlcode, "UTF-8");
            //NodeFilter filter = new TagNameFilter("DIV");
            //NodeList nodes = parser.ExtractAllNodesThatMatch(filter);
            //if (nodes != null)
            //{
            //    for (int i = 0; i < nodes.Size();i++ )
            //    {
            //       Response.Write( nodes.ElementAt(i).GetText());
            //    }
            //}

           // 1
            //TextExtractingVisitor visitor = new TextExtractingVisitor();
            //parser.VisitAllNodesWith(visitor);
            //String textInPage = visitor.ExtractedText;
            //Response.Write(textInPage);

            //2
            //for (INodeIterator i = parser.Elements(); i.HasMoreNodes(); )
            //{
            //    INode node = i.NextNode();
            //    Response.Write("getText:" + node.GetText()+"<br/>");
            //    Response.Write("getPlainText:" + node.ToPlainTextString() + "<br/>");
            //    Response.Write("toHtml:" + node.ToHtml() + "<br/>");
            //    //Response.Write("toHtml(true):" + node.ToHtml(true));
            //    //Response.Write("toHtml(false):" + node.ToHtml(false));
            //    Response.Write("toString:" + node.ToString() + "<br/>");
            //    Response.Write("=================================================");

            //}

            //3
            //NodeFilter filter = new TagNameFilter("DIV");
            //NodeList nodes = parser.ExtractAllNodesThatMatch(filter);
            //if (nodes != null)
            //{
            //    for (int i = 0; i < nodes.Size(); i++)
            //    {
            //        INode textnode = (INode)nodes.ElementAt(i);

            //        Response.Write("getText:" + textnode.GetText() + "<br/>");
            //        Response.Write("=================================================" + "<br/>");
            //    }
            //}

            //4
           // NodeFilter filter = new TagNameFilter("TD");
            NodeFilter filter = new HasAttributeFilter("class", "tdhead");
            NodeList nodes = parser.ExtractAllNodesThatMatch(filter);

            if (nodes != null)
            {
                for (int i = 0; i < nodes.Size(); i++)
                {
                    INode node = (INode)nodes.ElementAt(i);

                    Response.Write("getText:" + node.GetText() + "<br/>");
                    Response.Write("getPlainText:" + node.ToPlainTextString() + "<br/>");
                    Response.Write("toHtml:" + node.ToHtml() + "<br/>");
                    //Response.Write("toHtml(true):" + node.ToHtml(true));
                    //Response.Write("toHtml(false):" + node.ToHtml(false));
                    Response.Write("toString:" + node.ToString() + "<br/>");
                    Response.Write("=================================================" + "<br/>");
                }
            }

#endregion
}