WebCollector的正文抽取API都被封装为ContentExtractor类的静态方法。可以抽取结构化新闻,也可以只抽取网页的正文(或正文所在Element)。
源码可在https://github.com/CrawlScript/WebCollector中下载,也可在https://github.com/CrawlScript/WebCollector中下载webcollector-version-bin.zip,解压后导入所有jar包。
需要了解的两个类 :
- ContentExtractor : 封装了正文抽取算法和正文抽取的API,正文抽取API都被封装为ContentExtractor类的静态方法