在上面,我定义了一个自定义函数“myfilter()”来过滤掉(内部)文档中的所有DIV和IMG。 这样的函数接受一个参数,当前被指向的节点作为Tree Walker遍历文档。 在此函数中,支持3个常量,以允许您接受,拒绝或跳过节点:
NodeFilter.FILTER_ACCEPT | NodeFilter.FILTER_REJECT | NodeFilter.FILTER_SKIP |
FILTER_ACCEPT是自解释的,当返回时通知TreeWalker接受此节点。 但是,FILTER_REJECT和FILTER_SKIP以微妙的方式不同,这对于理解很重要。 使用FILTER_REJECT TreeWalker将拒绝相关节点以及节点的任何后代,而使用FILTER_REJECT时,TreeWalker将跳过相关节点但不跳过其后代。 换句话说,如果您希望过滤掉与父节点无关的节点,请使用NodeFilter.FILTER_SKIP而不是NodeFilter.FILTER_REJECT。 考虑上面的相同过滤器功能,但略微修改为使用“REJECT”而不是“SKIP”来取消不需要的节点:
1
2
3
4
五
6
|
<font style=
"vertical-align: inherit;"
><font style=
"vertical-align: inherit;"
>myfilter =函数(节点){</font></font><font></font><font style=
"vertical-align: inherit;"
><font style=
"vertical-align: inherit;"
>
if
(node.tagName ==“DIV”|| node.tagName ==“IMG”)
//过滤掉DIV和IMG元素</font></font><font></font><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">
返回NodeFilter.FILTER_ACCEPT</font></font><font></font><font style=
"vertical-align: inherit;"
><font style=
"vertical-align: inherit;"
>
其他</font></font><font></font><font style=
"vertical-align: inherit;"
><font style=
"vertical-align: inherit;"
>
返回NodeFilter.FILTER_REJECT</font></font><font></font><font style=
"vertical-align: inherit;"
><font style=
"vertical-align: inherit;"
>
}</font></font>
|
在这种情况下,并非文档中的所有DIV和IMG元素都可以被提取! 这是因为图像可能包含在被拒绝的元素(如<P>)中,导致TreeWalker在遇到不需要的P元素时自动跳过它。
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/69933200/viewspace-2652504/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/69933200/viewspace-2652504/