![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
搜索引擎
tianbwin2995
这个作者很懒,什么都没留下…
展开
-
PageRank算法
转载自http://blog.csdn.net/hguisu/article/details/7996185 1. PageRank算法概述 PageRank,即网页排名,又称网页级别、Google左侧排名或佩奇排名。 是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法,自从Google在商转载 2017-02-08 17:36:59 · 522 阅读 · 0 评论 -
正排索引(forward index)与倒排索引(inverted index)
一、正排索引(前向索引) 正排索引也称为"前向索引"。它是创建倒排索引的基础,具有以下字段。 (1)LocalId字段(表中简称"Lid"):表示一个文档的局部编号。 (2)WordId字段:表示文档分词后的编号,也可称为"索引词编号"。 (3)NHits字段:表示某个索引词在文档中出现的次数。 (4)HitList变长字段:表示某个索引词在文档中出现的位置,即相对于转载 2017-02-09 10:44:06 · 1000 阅读 · 0 评论 -
分词粒度
KTDictSeg 分词组件1.3版本 部分算法讨论 – 分词粒度 作者:肖波 http://www.cnblogs.com/eaglet/archive/2008/05/27/1208423.html KTDictSeg 分词组件1.3版本已经接近完成,只剩下最后的一点功能。在KTDictSeg 分词组件1.3版本的开发过程中,得到了很多朋友的关注和支持,特别是一些分词方面的专家提出转载 2017-02-14 20:04:10 · 3740 阅读 · 0 评论