Apache ManifoldCF框架

1,Apache ManifoldCF是什么
Apache ManifoldCF是一个由JAVA实现的爬虫框架
从指定的企业服务器或者互联网上爬取对应的文档内容(WEB文档,DOC。。。,),并按照指定的类型(file system,elasticsearch。。。)输出到特定的地方。
而且如果爬取元有相应的权限控制的话,也可以把响应的权限反应到输出的结果里面。以供权限控制

2,使用场景举例
例如:从互联网特定服务器上爬取文档,生成elasticsearch检索用的索引index,供elasticsearch检索使用。

3,主要构成
①连接器:
从手册里面的说明截图
②作业:
  定义从存储库和输出的对应关系(从哪里爬取,输出到哪里)

发布了47 篇原创文章 · 获赞 2 · 访问量 3251
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 大白 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览