mahoutLucene 2.3：大幅提升索引性能，新增机器学习项目

本文链接：https://blog.csdn.net/lwl_ls/article/details/2350079

http://www.infoq.com/cn/news/2008/01/lucene-23-mahoutLucene 2.3：大幅提升索引性能，新增机器学习项目作者 Ryan Slobojan译者郭晓刚发布于 2008年1月24日下午10时0分社区 Java 主题开放源代码, 搜索 Apache Lucene项目是一个完全用Java编写的高性能、全功能的文本搜索引擎库，今天它发布了2.3版。InfoQ采访了项目管理委员会（PMC）成员以及提交者，Grant Ingersoll，以深入了解这次发布的版本以及Lucene未来的计划。 Ingersoll认为这次的版本中最大的变化是新的索引算法，它使用了新的in-memory模型来达到大幅的速度提升。据Ingersoll说，单单是把Lucene 2.2 JAR换成Lucene 2.3 JAR就能在某些测试中把索引性能提速500%。其他改变还包括：改进的索引管理——以前在索引过程中，当合并内部索引文件时偶尔会出现长时间的停顿，现在已经消灭了这种现象。另外现在也更容易实现其他途径去管理索引过程。对象池——Document、Field和Token的实例现在可在索引分析中重用，因此不但提升了分析的速度，还减少了索引过程中的内存分配次数。重新打开IndexReader ——重新打开一个IndexReader去捕捉索引中最新的变化，这个操作的速度现在也更快了，新的reopen()方法只会加载那些变更过的索引片断，而不是重新加载完整的索引。更简易的IndexWriter微调——setMaxBufferedDocs已被更直观的setRAMBufferSizeMB所取代。另外，2.3的目标是只需通过文件替换就能换下2.2，完全不需要重新编译。这里是完整的更新说明。 Ingersoll还谈论了Lucene未来的计划，他说下一版将会是2.9。2.9版是相对改动较小的版本，有些部分会被标为废弃，还会为了给Lucene 3.0做准备而进行一些清理。3.0版是一个重大的版本，包括把代码库迁移到JDK5，以之作为最低要求。3.0的其他主要特性还有待决定。采访中还讨论了Lucene社区的总体情况。Ingersoll表示Lucene和Solr结合得很紧密，而与Nutch、Tika以及Hadoop也有相当良好的相互沟通。Ingersoll还谈论了一个名为Mahout的项目，他正在启动该项目：这是一个单独的项目，但对Lucene用户也会有好处。JIRA中已经有一些Lucene的补丁实现了ML算法。这个项目的目标是提供商业质量的大规模机器学习（machine learning，ML）算法。它以Hadoop为基础建立，遵循Apache许可证。我已经观察到不少人对这个项目感兴趣，希望在接下来这个月能把项目启动起来。 Ingersoll说，通过建立Mahout项目，他希望能够“进一步揭开Google这类公司提供的类似功能的秘密，并刺激在这个领域中的创新”。如果对这个新项目感兴趣，可以阅读一下它的项目计划和孵化提案。查看英文原文：Lucene 2.3: Large indexing performance improvements, new machine-learning project --There can be miracles When you believe !