- 博客(3)
- 资源 (2)
- 收藏
- 关注
原创 检索模型与搜索排序 学习
布尔模型 仅仅根据term后续的倒排列表进行布尔运算,获取最终的返回结果.无法进行排序打分. 空间向量模型 将搜索语句当成一片文档来解析成n维度空间中的某个点,与已经存在的原始文档在该维度中的做比较,根据夹角等因素算出数值进行排序. 首先需要计算每个term的特征权重.为 TF*IDF TF的两种计算方式: 1+log(TF) 或者 a + (1
2016-10-31 19:52:44 2851
原创 索引压缩学习总结
词典压缩 词典中一般包含三部分信息,原词,df,及倒排索引指针.其中要压缩的是原词,存在不规则性 如果都去开辟最大那个原词的字节空间,那么整个字典树将有非常大的空间浪费. 将单词单独抽取出来放在一个单独的存储区内,原词的位置存放指向该词语的指针. 再次优化可以将指针在某个范围内仅仅保存一个指针,在单词存储区保存原词及词长. 倒排列表压缩算法 评价
2016-10-27 17:51:11 1594
原创 索引的建立过程学习总结
索引基础 了解几个基本概念:倒排索引,单词词典,倒排列表,tf,df等 知道索引建立的大概流程,当拿到一篇文章(单字段),需要进行分词,记录一些信息,组成倒排索引.写入到磁盘中. 单词词典 建立好term到倒排列表的映射后,需要能快所的找到查询的term,继而获取对应的倒排列表,进行其余的操作,.主要有两种方式 第一种是使用哈希加链表的方式,将te
2016-10-26 20:05:00 2392
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人