WebCollector 网页正文提取算法(ContentExtractor)
WebCollector 网页正文提取算法(ContentExtractor)WebCollector自2.10版起加入新闻网页正文自动提取功能(合并了hfut-dmic的ContentExtractor项目,WebCollector项目也属于hfut-dmic)。WebCollector的正文抽取API都被封装为ContentExtractor类的静态方法。
可以抽取结构化新闻,也可以只抽取网页
原创
2015-09-16 13:58:54 ·
10489 阅读 ·
0 评论