java根据网页URL获取正文信息，并调整正文格式为段落显示---（两种方式）

最新推荐文章于 2024-06-28 14:26:11 发布

xingchenhy

最新推荐文章于 2024-06-28 14:26:11 发布

阅读量1.1k

点赞数

分类专栏： Java 编程语言文章标签： java 爬虫

本文链接：https://blog.csdn.net/xingchenhy/article/details/74644338

版权

WebCollector的正文抽取API都被封装为ContentExtractor类的静态方法。可以抽取结构化新闻，也可以只抽取网页的正文（或正文所在Element)。

源码可在https://github.com/CrawlScript/WebCollector中下载，也可在https://github.com/CrawlScript/WebCollector中下载webcollector-version-bin.zip，解压后导入所有jar包。
需要了解的两个类 :
  
  
  
   ContentExtractor : 封装了正文抽取算法和正文抽取的API，正文抽取API都被封装为ContentExtractor类的静态方法