1.爬虫配置文件 CrawlerConfiguration
用于设置开始抓取的路径、索引存放的位置等内容
<startlist>开始爬的路径
<whitelist>必须爬到的路径
<blacklist>爬取时屏蔽的路径
<searchIndex>关于索引的配置
<dir>索引存放的位置
<analyzerType>分析器的名称,需要与搜索时一致。默认为german,似乎对 中文查询没有影响
<stopwordlist>停止词单 用于分词
<preparerator> 预处理器 提取文档内容
<crawlerplugin> 爬虫中用到的插件
<crawlerAccessController>用于配置权限控制模块(如果自己添加了权限控制的话)
如果单独运行爬虫,只需要给出起始路径即可,如果与desktop或server一起使用,则不用给出起始路径,在jsp页面中的preference里面设置即可
2.searchConfiguration
<sortResults>搜索结果的排序菜单
<openInNewWindowRegex>选择显示特定格式的文件(设置了之后木有反应,伤感)
<searchAccessController>设置权限管理 (同理,如果自己加了权限管理模块的话)
3.DeskTopConfiguration
<port>设置服务器所用端口 如<port>8020</port> 则打开regain 时输入localhost:8020/regain
大部分内容不用修改,默认的配置就可以用了