firtex2-0.4.1到编译安装

平台

Ubuntu11.04
gcc version 4.4.5
automake (GNU automake) 1.11.1
bison (GNU Bison) 2.4.1
flex 2.5.35
libtool 2.2.6b

步骤

1:从http://www.sourceforge.net/projects/firtex获取最新发布源代码
2:plugins死活编译不过,就先把它注释掉:将Makefile.am和configure.in中有关plugins到都注释掉。
3:./autocompile.sh
4:make install
5:默认安装到/usr/local/firtex2/bin,但是运行./fxist4c出现以下错误:
./fxist4c: error while loading shared libraries: libfirtexext.so.0: cannot open shared object file: No such file or directory
这个是因为:LD_LIBRARY_PATH到设置不对。修改方式就是:
export LD_LIBRARY_PATH=/usr/local/lib

修改后再运行./fxist4c

 fzuir@ubuntu:/usr/local/firtex2/bin$ ./fxist4c
        Usage: fxist4c [OPTION]...
        FirteX utility for index buiding, searching, printing, etc.
        Build index from configure file:
          fxist4c -b [CONF_FILE]
        Search over index :
          fxist4c -s [INDEX_PATH] -e [QUERY_EXPR] [-d [DEF_FIELD]] [-l [LEXICON_DIR]]search from query expression.
          fxist4c -s [INDEX_PATH] -q [QUERY_FILE] [-d [DEF_FIELD]] [-l [LEXICON_DIR]]search from query file
        Print index information :
          fxist4c -n [INDEX_PATH]
        Build index from files:
          fxist4c -f [FILE_PATH] -i [INDEX_PATH] -t [plain/html/pdf]
        Merge index inplace:
          fxist4c -m [merge/optimize] -i [INDEX_PATH] [-l [LEXICON_DIR]]
        Print posting information of term :
          fxist4c -P [INDEX_PATH] -T [TERM] [-o]
        Print document:
          fxist4c -r [INDEX_PATH] -N [DOCID]

        Options:
            -h, --help             display help
            -b, --build-index      build index database
            -s, --search-index     search over index database
            -q, --query-file       query file, one query per line
            -e, --query-expr       query expression
            -d, --def-field        default field
            -l, --lexicon-dir      lexicon directory
            -n, --look-index       print index infomation
            -f, --index-file       source file path to index
            -i, --index-path       index path
            -t, --file-type        source file type(plain, html, pdf)
            -m, --merge-index      merge index
            -P, --index-print      print posting list of term
            -T, --term             term to print
            -o, --print-position   print position or not
            -r, --print-document   print document in index
            -N, --docid            document id


注:为一劳永逸解决这个问题,可以将export LD_LIBRARY_PATH=/usr/local/lib写入~/.bash_profile中去
开放式架构: 采用标准C++实现,支持Windows,Unix-like 操作系统; 实验和工程的通用平台,不仅是一个检索系统,同时也是一个全文索引和检索框架 多个组件基于插件设计,不仅可以采用C/C++对系统进行扩展,也可以通过内置的跨平台COM库设计COM组件来扩展系统 。 功能: 支持增量索引,差量索引,多字段索引,提供了3种前向索引方式; 支持纯文本,HTML,PDF等文件格式; 提供快速中文分词; 从底层到高层,提供了多种索引访问接口,灵活自由地使用索引文件; 提供丰富的检索语法,支持多字段检索,日期范围检索,检索结果自定义排序等。 性能: 在Pentium 4 2.8G 2GRAM的机器上超过200Mb每分钟的索引速度 在近7G的索引文件(100G网页,11G纯文本的索引)上检索,仅使用十几M内存在数毫秒内返回查询结果; 支持Tb数量级的文本索引和检索 灵活性: 对于简单的使用者: 直接提供了多种文件格式解析器(HTML,PDF,WORD等); 系统采用类似于XML格式的配置文件,可以根据数据集和机器配置情况,灵活配置整个系统,无需编写代码。 对于研究人员: 提供了TREC文档集解析器; 检索模型易于扩展; 提供了3种前向索引方式,可以直接用来做文本分类、聚类,摘要等 实验; 对于开发者: 系统各组成部分耦合性低,从应用层模块到系统核心层模块,均可单独修改、升级或替换;扩展既可以在源代码上直接进行,也可以使用非C/C++语言通过COM组件扩展
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值