Java HTML Parser应用

最新推荐文章于 2024-07-24 17:16:26 发布

kingecg

最新推荐文章于 2024-07-24 17:16:26 发布

阅读量614

点赞数

分类专栏： JAVA开源项目研究文章标签： html java string null 数据结构 class

本文链接：https://blog.csdn.net/kingecg/article/details/5334941

版权

JAVA开源项目研究专栏收录该内容

1 篇文章 0 订阅

订阅专栏

最近因为项目需要，研究了java html parser类库的应用。记录下使用要点：

主要的类说明：

1、Parser类

解析器主类，负责载入HTML代码并解析。

2、Node接口

用来表征在解析过程中使用的语法单元。示例如下段html代码：

<span> ----Tag node

text ----Text Node

</span>

文本和标签都是独立的node元素。text文本是标签span的child node

3、NodeFilter

标签过滤器接口，用来在parser或NodeList中过滤出需要的某一类node。

4、NodeList

数据结构，表示Node的集合

需要特别注意的地方：

Parser和NodeList都有一个名为extractAllNodesThatMatch(NodeFilter filter)的方法用来过滤出符合某个条件的node，但是其内部的实现机制不同。

Parser是在解析器的功能基础上使用Iteror实现。每次调用该方法后需要执行reset方法，否则会影响下一次调用的结果。

而NodeList是在内部的数组上进行循环判断，因此各次调用之间不会互相影响，效率也比Parser的高，土建使用。

代码示例：

实现getElementByID功能

<code>

public class NodeIDFilter implements NodeFilter {

private String id;
public NodeIDFilter(String id)
{
this.id=id;
}
public boolean accept(Node node) {

if(node instanceof Tag)
{
if(!((Tag)node).isEndTag())
{
String s=((Tag)node).getAttribute("id");
if(s!=null)
return s.equals(this.id);
}
}
return false;
// throw new UnsupportedOperationException("Not supported yet.");
}

}

public class MHTMLParser

{

....

protected Node getElementById(String id) throws ParserException
{
//this.myparser.reset();
if(this.mNodeList==null||this.mNodeList.size()==0) return null;
NodeIDFilter nodef = new NodeIDFilter(id);
NodeList nl = this.mNodeList.extractAllNodesThatMatch(nodef,true);
//
if (nl.size() != 0)
{
return nl.elementAt(0);
}
return null;
}

}

</code>

kingecg

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Java HTML Parser应用

最近因为项目需要，研究了java html parser类库的应用。记录下使用要点：主要的类说明：1、Parser类解析器主类，负责载入HTML代码并解析。2、Node接口用来表征在解析过程中使用的语法单元。示例如下段html代码： ----Tag nodetext ----Text Node 文本和标签都是独立的node元素。text文本是标签span的chi
复制链接

扫一扫

专栏目录