全文搜索工具regain学习笔记--配置文件

1.爬虫配置文件 CrawlerConfiguration

     用于设置开始抓取的路径、索引存放的位置等内容

<startlist>开始爬的路径 

<whitelist>必须爬到的路径

<blacklist>爬取时屏蔽的路径

<searchIndex>关于索引的配置

             <dir>索引存放的位置

              <analyzerType>分析器的名称,需要与搜索时一致。默认为german,似乎对        中文查询没有影响

               <stopwordlist>停止词单 用于分词

 <preparerator> 预处理器 提取文档内容

 <crawlerplugin>  爬虫中用到的插件

 <crawlerAccessController>用于配置权限控制模块(如果自己添加了权限控制的话)

            

如果单独运行爬虫,只需要给出起始路径即可,如果与desktopserver一起使用,则不用给出起始路径,在jsp页面中的preference里面设置即可

2.searchConfiguration

  <sortResults>搜索结果的排序菜单

  <openInNewWindowRegex>选择显示特定格式的文件(设置了之后木有反应,伤感)

  <searchAccessController>设置权限管理 (同理,如果自己加了权限管理模块的话)

3.DeskTopConfiguration

  <port>设置服务器所用端口 如<port>8020</port> 则打开regain 时输入localhost8020/regain

大部分内容不用修改,默认的配置就可以用了


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值