![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
搜索引擎
我就算饿死也不做程序员
欢迎关注同名公众号:"我就算饿死也不做程序员"。
交个朋友,一起交流,一起学习,一起进步。
展开
-
Lucene源码(三):全文检索的底层原理
文章目录IndexSearchersearchAfterCollectorManagersearchcreateNormalizedWeightcreateWeightTermQuerycreateWeightTermWeightTFIDFSimilarityBooleanScorerLucene源码(一):分词器的底层原理Lucene源码(二):文本相似度TF-IDF原理IndexRead...原创 2020-04-13 21:48:55 · 1101 阅读 · 0 评论 -
Lucene源码(二):文本相似度TF-IDF原理
Lucene中TF-IDF的计算公式与普通的TF-IDF不一样。学习之后,感觉Lucene的计算方法更加合理,考虑得更加周全。q:query,即搜索内容,例如:githubd:document,即文档内容,例如:i like github即我们的搜索内容"github"跟文档内容"i like github"的TF-IDF值(相似度)。TF-IDF值越高,搜索的内容与文档的匹配度越高。t...原创 2020-04-13 21:37:00 · 628 阅读 · 0 评论 -
Lucene源码(一):分词器的底层原理
文章目录官方DemoQueryTermStandardAnalyzer源码分析QueryBuilder.createFieldQueryStandardTokenizerStandardTokenizerImpl官方Demo我们先看官方提供的demo代码,从使用demo运行一遍,看看分词之后的结果,然后再对源码进行研究。分词的核心代码其实就是这几句:Analyzer analyzer = n...原创 2020-04-07 21:23:26 · 904 阅读 · 0 评论