一、HtmlCleaner使用:
1、HtmlCleaner
HtmlCleaner是一个开源的Java语言的Html文档解析器。HtmlCleaner能够重新整理HTML文档的每个元素并生成结构良好(Well-Formed)的 HTML 文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。然而,用户可以提供自定义tag和规则组来进行过滤和匹配。
2、基本示例,在wikipedia中抓取机场信息
import java.io.UnsupportedEncodingException;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;
import org.htmlcleaner.XPatherException;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
//import com.moore.index.BabyStory;
import com.moore.util.HttpClientUtil;
/**
* 用途:TODO
*
* @author bbdtek
*/
public class ParserAirport {
private static Logger log = LoggerFactory.getLogger(ParserAirport.class);
/**
* @param args
* @throws UnsupportedEncodingException
* @throws XPather