Search Engine
文章平均质量分 76
Yanfei90
这个作者很懒,什么都没留下…
展开
-
倒排索引(Inverted Index)
倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。 有两种不同的反向索引形式: 一条记录的水平反向索引(或者反向档案索引)包含每个引用单词的文档的列表。一个单词的水平反向索引(或者完全反向索引)又包含每个单词在一个文档中的位置。[转载 2011-12-13 09:41:38 · 968 阅读 · 0 评论 -
中文机械分词算法入门
中文机械分词算法入门 作者:Sunny from Hour41 (www.hour41.com ) 这几天因为要负责新的搜索系统中的分词,所以看了一些入门级的分词算法。其中主要是机械分词方法,趁这个机会总结下。 机械分词方法又叫基于字符串匹配的分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行区配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫转载 2012-01-03 20:28:16 · 866 阅读 · 0 评论 -
中文分词技术初识
对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。 机器算法和人不一样的地方是人可以直接理解词的意思,文章的意思,机器和算法不能理解。人看到苹果这两个字就知道指的是那个圆圆的,有水的挺好吃的东西,搜索引擎却不能从感性上理解。 中文分词的准确与否,常常直接影响到对搜索结果的相关度排转载 2012-01-03 20:40:49 · 1501 阅读 · 0 评论