FirteX

什么是Firtex?
  • FirteX 是一个功能强大、高性能、灵活的全文索引和检索平台。
  • 支持Windows、Linux以及Mac平台。
  • 采用标准C++实现。
  • 采用GPL协议开源。
  • 详细信息

http://www.firtex.org/index.html

 

中科院

posted on 2011-10-13 00:23  lexus 阅读( ...) 评论( ...) 编辑 收藏

转载于:https://www.cnblogs.com/lexus/archive/2011/10/13/2209575.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
开放式架构: 采用标准C++实现,支持Windows,Unix-like 操作系统; 实验和工程的通用平台,不仅是一个检索系统,同时也是一个全文索引和检索框架 多个组件基于插件设计,不仅可以采用C/C++对系统进行扩展,也可以通过内置的跨平台COM库设计COM组件来扩展系统 。 功能: 支持增量索引,差量索引,多字段索引,提供了3种前向索引方式; 支持纯文本,HTML,PDF等文件格式; 提供快速中文分词; 从底层到高层,提供了多种索引访问接口,灵活自由地使用索引文件; 提供丰富的检索语法,支持多字段检索,日期范围检索,检索结果自定义排序等。 性能: 在Pentium 4 2.8G 2GRAM的机器上超过200Mb每分钟的索引速度 在近7G的索引文件(100G网页,11G纯文本的索引)上检索,仅使用十几M内存在数毫秒内返回查询结果; 支持Tb数量级的文本索引和检索 灵活性: 对于简单的使用者: 直接提供了多种文件格式解析器(HTML,PDF,WORD等); 系统采用类似于XML格式的配置文件,可以根据数据集和机器配置情况,灵活配置整个系统,无需编写代码。 对于研究人员: 提供了TREC文档集解析器; 检索模型易于扩展; 提供了3种前向索引方式,可以直接用来做文本分类、聚类,摘要等 实验; 对于开发者: 系统各组成部分耦合性低,从应用层模块到系统核心层模块,均可单独修改、升级或替换;扩展既可以在源代码上直接进行,也可以使用非C/C++语言通过COM组件扩展
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值