使用swing自带的html解析器来解析html

最新推荐文章于 2024-01-28 19:15:48 发布

iceshirley

最新推荐文章于 2024-01-28 19:15:48 发布

阅读量7.8k

点赞数

文章标签： swing html解析器 string vector null html

本文链接：https://blog.csdn.net/iceshirley/article/details/1463248

版权

本文介绍了如何使用Java Swing中的HTMLEditorKit.ParserCallback解析HTML，通过自定义回调类获取HTML页面中的链接。示例代码展示了一个简单的例子，从xjtu.edu.cn网站上抓取并打印出所有链接。

摘要由CSDN通过智能技术生成

使用java自带的swing解析html，用起来简单，速度也很快。首先要导入javax.swing.text.*和javax.swing.text.html.*两个包。然后定义一个parser的类，继承了javax.swing.text.html.HTMLEditorKit.ParserCallback这个类，在javax.swing.text.html.HTMLEditorKit.ParserCallback这个类中，有如下几个方法

`void`	`flush()`
`void`	`handleComment(char[] data, int pos)`
`void`	`handleEndOfLineString(String eol)` 它的调用是在完成流的解析之后且在调用 `flush` 之前。
`void`	`handleEndTag(HTML.Tag t, int pos)`
`void`	`handleError(String errorMsg, int pos)`
`void`	`handleSimpleTag(HTML.Tag t, MutableAttributeSet a, int pos)`
`void`	`handleStartTag(HTML.Tag t, MutableAttributeSet a, int pos)`
`void`	`handleText(char[] data, int pos)`

先拿handleStartTag方法来说，当发现html标签开始的时候调用这个函数,t是标签的名，（比如HTML.Tag.A,这些标签可以在网上查到）,a是属性列，比如a标签中的hreg属性，可以通过 HTML.ATTRIBUTE.HREF来拿到。同样，属性列swing也公开了。handleEndTag是当标签结束的时候被调用。用法大家可以看看我写的parser类代码如下：