现在每个企业和政府机关内部的文档越来越多,管理起来很麻烦,并且即使做到了集中管理,当再次使用的时候也只能看文件名称再打开查看内容,然后才知道是否是自己要找的文档。有时明明记得在某个版本的文档中写过某些内容,但是就是不知道放在哪个版本的文档里面了,如果有个能实现全文检索的管理工具就方便了。
现在市场上有一些针对企业内部文档管理的搜索引擎,但几乎都是国外的产品,比如在业界做的比较不错的Autonomy等。这些产品动辄上百万,少说也有几十万,对于中小企业来说基本上无法选择这样的产品。
我们在google上进行搜索的时候,可以看到google对word、ppt等文件都可以实现全文检索,那么我们能否也打造自己的文档搜索引擎呢?答案是肯定的。通过对pdf、word、ppt包括对图片的文字识别技术,抽取相应的文字内容,来剥离word、ppt、图片无法实现检索的功能,来变相实现内部文档的全文检索。如果觉得这样实现的检索方式还不满足需求,我们可以加上分词算法,对抽取后的文本进行预处理,就变成了内部文档搜索引擎了,呵呵。一般情况下简单的模糊检索足够内部用了,无需实现分词算法。