![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
搜索引擎
文章平均质量分 89
ddlgyqddlgyq
这个作者很懒,什么都没留下…
展开
-
lucene
转自 Lucene/Solr开发经验[原] 作者 张驰有道 注意:该文章所属Blog中的日记遵循Creative Commons(创作共用)授权 ,您可以任意转载,转载时请务必以超链接形式标明文章原始出处 和作者信息 及本声明 。 [开篇语 ]按照惯例应该写一篇技术文章了,这次结合Lucene/Solr来分享一下开发经验。 Lucene是一个使用Java语言写的全文检索开发...原创 2014-02-24 17:45:13 · 125 阅读 · 0 评论 -
Trie数据结构
/**********************************************************数据结构:Trie树,又称单词查找树或字典树,是一种树形结构,是一种哈希树的变种;基本原理:Trie树的核心思想是空间换时间,利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的;应用:用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计;...原创 2014-02-25 15:00:22 · 83 阅读 · 0 评论 -
Lucene学习总结之一:全文检索的基本原理
一、总论 根据http://lucene.apache.org/java/docs/index.html定义: Lucene是一个高效的,基于Java的全文检索库。 所以在了解Lucene之前要费一番工夫了解一下全文检索。 那么什么叫做全文检索呢?这要从我们生活中的数据说起。 我们生活中的数据总体分为两种:结构化数据和非结构化数据。 结构化数据:指具有固定格式或有限长度的数据,...原创 2014-02-25 15:49:02 · 128 阅读 · 0 评论 -
Lucene学习总结之二:Lucene的总体架构
Lucene总的来说是: 一个高效的,可扩展的,全文检索库。 全部用Java实现,无须配置。 仅支持纯文本文件的索引(Indexing)和搜索(Search)。 不负责由其他格式的文件抽取纯文本文件,或从网络中抓取文件的过程。 在Lucene in action中,Lucene 的构架和过程如下图, 说明Lucene是有索引和搜索的两个过程,包含索引创建,索引,搜索三个要点...原创 2014-02-25 16:14:17 · 60 阅读 · 0 评论 -
Lucene的索引文件格式
Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙。 当我们真正进入到Lucene源代码之中的时候,我们会发现: Lucene的索引过程,就是按照全文检索的基本过程,将倒排表写成此文件格式的过程。 Lucene的搜索过程,就是按照此文件格式将索引进去的信息读出来,然后计算每篇文档打分(score)的过程。 本文详细解...原创 2014-02-25 16:54:38 · 135 阅读 · 0 评论 -
影响lucene的评分的几种方法
评分功能,在全文检索中也算是一个非常重要的模块,因为评分的好坏,直接决定着用户搜索匹配的相关性,试想一下假如用户输入了一个搜索词,搜索引擎返回了一大堆不相关的信息,或者没有层次性,重点性的结果,那么看起来将是一件多么糟糕的事情。 lucene默认的评分机制,用的VSM(Vector Space Model)空间向量模型,基于TF-IDF的评选方式,TF-IDF(term frequency–i...原创 2014-02-26 15:32:58 · 210 阅读 · 0 评论 -
向量空间模型与Lucene的打分机制以及影响打分的几种方式
向量空间模型请参照全文检索的基本原理的blog 问题: 在你的文章中提到了: 于是我们把所有此文档中词(term)的权重(term weight) 看作一个向量。 Document = {term1, term2, …… ,term N} Document Vector = {weight1, weight2, …… ,weight N} 同样我们把查询语句看作...原创 2014-02-26 15:47:33 · 130 阅读 · 0 评论