IAS--Installing the Integrator Acquisition System
是Oracle Endeca 产品系列中最被忽视的,也是最关键的一个服务选件,IAS主要承担了非结构化文档,扁平数据以及web网页数据的采集工作,IAS主要通过web爬虫和各种文件适配采集器,完成各种数据类型的入库、转换和分词工作。IAS主要通过命令行和脚本方式完成数据采集,整个过程目前来看还比较简陋,可视化程度不高。IAS完成数据爬去以后,能够将数据或者处理结果转换成record store或者xml格式,供ETL工具抽取生成结构化数据。
IAS的安装过程相对比较简单,官网上都有相关的安装文档,主要注意事项如下:
1、预先下载weblogic10.3.6版本;
2、操作系统要求必须是64位;
3、对硬盘容量有一定要求;
其他详细步骤参考安装部署文档。文档下载地址如下:
http://www.oracle.com/technetwork/middleware/endeca/documentation/index.html