1.主要采用分词和本体技术
2.用tomcat + myeclipse开发
3.架构mvc
4.实现思路:
- 上传文件,对文件转化成字符串,然后用lucene分词
代码:r
然后根据需要把相关的关键词和文档一一对应起来,用数据库保存
- 可以借助许多中文分词工具,如:极易分词等,对中文文档分词,最后为保存到数据库的文件和关键词等用lucene建立索引,为下一步搜索做好准备!做到这一步,你就可以做到对所有文档进行全文搜索了~!
- 要做到语义搜索,这里用到的是本体技术。这里用到的是protege工具,可以用来构建出owl形式的本体!然后prefuse开源包可以把本体显示出来!如下图:
- 这个图形主要是根据本体之间的关系建立,然后通过直接点击本体,就可以进行搜索到与这个本体相关的文档,并且可以根据本体图的关系,达到语义搜索的目的!
注:关键技术:本体、lucene分词、applet与js通信、prefuse研究....
由于图片不知道如何上传,对这个有兴趣的朋友,可以一起探讨!
先写这些,有些东西还需要时间研究!