WebCollector
蚩尤后裔-汪茂雄
朝为田舍郎,暮登天 子堂;将相本无种,男儿当自强。
展开
-
WebCollector 简介与 快速入门
目录WebCollerctor 简介内核构架图WebCollector 2.x 版本特性快速入门开发包获取Maven 依赖新建 Maven 项目补全 Maven 约定项目设置pom. xml 引入 依赖DemoAutoNewsCrawler运行结果WebCollerctor 简介WebCollector 是一个无须配置、便于二次开发的 JAV...原创 2018-08-14 10:20:01 · 19154 阅读 · 13 评论 -
WebCollector 网页正文快速提取
本文承接《WebCollector 简介与 快速入门》正文提取简介网页正文提取项目 ContentExtractor 已并入 WebCollector 维护。 WebCollector 的正文抽取 API 都被封装为 ContentExtractor(内容提取) 类的静态方法。 ContentExtractor 可以抽取结构化新闻,也可以只抽取网页的正文(或正文所在Element)。 ...原创 2018-08-14 15:36:23 · 4148 阅读 · 5 评论 -
WebCollector 页面附件信息 metaData 与 MatchType
目录本文导读MetaData 概述MatchType 概述爬取豆瓣评分需求分析标签页列表页内容页代码实现爬取结果本文导读本文学习 webCollector 官网的DemoMetaCrawler示例,这个例子可以在开发包 cn.edu.hfut.dmic.webcollector.example m=目录下找到 《WebCollector 自动探...原创 2018-08-17 11:08:33 · 1103 阅读 · 6 评论