[转贴] 一个灵活的索引工具

转载 2005年05月23日 18:15:00

SWISH-E is a fast, powerful, flexible, free, and easy to use system for indexing collections of Web pages or other files. See the article How to Index Anything by Josh Rabinowitz in the Linux Journal for more information.

Key features

  • Quickly index a large number of documents in different formats including text, HTML, and XML
  • Use "filters" to index other types of files such as PDF, gzip, or Postscript.
  • Includes a web spider for indexing remote documents over HTTP. Follows Robots Exclusion Rules (including META tags).?
  • Can use an external program to supply documents to Swish-e, such as an advanced spider for your web server or a program to read and format records from a relational database.
  • Document "properties" (some subset of the source document, usually defined as a META or XML elements) may be stored in the index and returned with search results
  • Document summaries can be returned with each search
  • Word stemming, soundex, metaphone, and double-metaphone indexing for ``fuzzy'' searching
  • Phrase searching and wildcard searching
  • Limit searches to HTML links
  • Use powerful Regular Expressions to select documents for indexing or exclusion
  • Easily limit searches to parts or all of your web site
  • Results can be sorted by relevance or by any number of properties in ascending or descending order
  • Limit searches to parts of documents such as certain HTML tags (META, TITLE, comments, etc.) or to XML elements.
  • Can report structural errors in your XML and HTML documents
  • Index file is portable between platforms.
  • A Swish-e library is provided to allow embedding Swish-e into your applications for very fast searching. A Perl module is available that provides a standard API for accessing Swish-e.
  • Includes example search script with context summaries and search term and phrase highlighting. Can be used with popular Perl templating systems.
  • Swish-e is fast.
  • It's open source and FREE! You can customize Swish-e and you can contribute your fancy new features to the project.
  • Supported by on-line user and developer groups

Further information about SWISH-E is available at http://www.swish-e.org/.

lucene 索引查看工具

luke 是 lucene 索引查看工具,基于 swing 开发的,是 lucene、solr、nutch 开发过程中不可或缺的工具。在测试搜索过程,进程出现搜不到东西或者搜到的东西不是想要的结果时,...
  • xiaoyu411502
  • xiaoyu411502
  • 2015年04月02日 14:21
  • 1065

权限灵活可配-简单理解

权限: 百度百科:权限是指为了保证职责的有效履行,任职者必须具备的,对某事项进行决策的范围和程度。 对于任何系统来说权限可控制是必不可少的。下面来说说我对权限的理解! 权限涉及到用户,角色,菜...
  • hejingyuan6
  • hejingyuan6
  • 2014年01月23日 13:42
  • 2627

深入理解maven与应用(二):灵活的构建

深入理解maven及应用(一):生命周期和插件 参考官方url:http://maven.apache.org/guides/index.html  一个优秀的构建系统必须足够灵活,应该能够让项目...
  • MINEZHANGHAO
  • MINEZHANGHAO
  • 2014年07月03日 14:11
  • 2578

Luke:Lucene索引查看工具

Luke介绍 Luke是一个方便的索引查看和诊断工具,可以访问Lucene构建的索引文件,显示和修改某些索引内容。能提供: 通过document编号或term浏览索引查看document内容,...
  • dac55300424
  • dac55300424
  • 2014年04月22日 18:50
  • 2661

大数据灵活查询的一个思路

查询平台意义在于解决实时的多维度关联查询,整体对外以JSON方式交互以及提供功能。 具体实现:         在服务端接受到json请求后,交给查询组件doggie-search-eng...
  • DENGZHUYU
  • DENGZHUYU
  • 2014年06月19日 13:52
  • 863

Luke lucene索引工具箱

项目地址:http://www.getopt.org/luke/ 或 https://code.google.com/archive/p/luke/ 1.简介 Luke is a handy deve...
  • chuchus
  • chuchus
  • 2016年04月29日 10:36
  • 471

灵活控制权限

继上篇《C#读取配置文件信息》        上篇提到读取配置文件信息,其中读取一般文件的信息目的是更加灵活地分配权限。用或的信息具体干什么在这里给大家细细道来。        为了让效果更佳,用对比...
  • u013037201
  • u013037201
  • 2016年04月08日 15:47
  • 661

浅谈数据库设计---灵活性原则

 又接触一个系统,要从需求分析里面找到需求,然后设计数据库。我就按照自己的想法做了,可是做完后给老师看了,老师又自己修改了一遍,呵呵,听过老师讲解的,自己真的是设计失误,好不灵活的数据库设计。下面就把...
  • it114
  • it114
  • 2009年12月26日 23:01
  • 590

2.Lucene3.6.2包介绍,第一个Lucene案例介绍,查看索引信息的工具lukeall介绍,Luke查看的索引库内容,索引查找过程

 1  Lucen目录介绍 2  lucene-core-3.6.2.jar是lucene开发核心jar包    contrib  目录存放,包含一些扩展jar包 ...
  • toto1297488504
  • toto1297488504
  • 2014年12月07日 23:39
  • 2965

PS路径终极教程(钢笔工具灵活画曲线不再是问题)

http://www.360doc.com/content/12/0927/09/3318444_238393853.shtml
  • lzxiall
  • lzxiall
  • 2014年11月20日 13:15
  • 263
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:[转贴] 一个灵活的索引工具
举报原因:
原因补充:

(最多只允许输入30个字)