最近在写一个文章编辑和搜索的web程序,编辑的文章带有html标签,并以BLOB类型保存在数据库。在显示搜索结果时,以字符串类型输出,但我只想把文章的概要显示出来而不是整篇文章,就想着要是能把字符串中的html标签去掉,只提取其中的纯文本就好了。在网上搜了一下,发现有很多使用js、jQuery的replace()方法过滤html标签,感觉比较复杂也比较繁琐。继续寻找,发现了HTML Parser这个解析库,使用起来也很方便。
import java.util.List;
import org.htmlparser.Parser;
import org.htmlparser.visitors.TextExtractingVisitor;
public class test {
public static void main(String[] args) throws Exception {
String str = "<div class='download-bar'>Looking for