自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

筑梦者

努力ing

  • 博客(3)
  • 资源 (2)
  • 收藏
  • 关注

原创 检索模型与搜索排序 学习

布尔模型 仅仅根据term后续的倒排列表进行布尔运算,获取最终的返回结果.无法进行排序打分. 空间向量模型 将搜索语句当成一片文档来解析成n维度空间中的某个点,与已经存在的原始文档在该维度中的做比较,根据夹角等因素算出数值进行排序. 首先需要计算每个term的特征权重.为 TF*IDF TF的两种计算方式: 1+log(TF) 或者 a + (1

2016-10-31 19:52:44 2851

原创 索引压缩学习总结

词典压缩 词典中一般包含三部分信息,原词,df,及倒排索引指针.其中要压缩的是原词,存在不规则性 如果都去开辟最大那个原词的字节空间,那么整个字典树将有非常大的空间浪费. 将单词单独抽取出来放在一个单独的存储区内,原词的位置存放指向该词语的指针. 再次优化可以将指针在某个范围内仅仅保存一个指针,在单词存储区保存原词及词长. 倒排列表压缩算法 评价

2016-10-27 17:51:11 1594

原创 索引的建立过程学习总结

索引基础 了解几个基本概念:倒排索引,单词词典,倒排列表,tf,df等 知道索引建立的大概流程,当拿到一篇文章(单字段),需要进行分词,记录一些信息,组成倒排索引.写入到磁盘中. 单词词典 建立好term到倒排列表的映射后,需要能快所的找到查询的term,继而获取对应的倒排列表,进行其余的操作,.主要有两种方式 第一种是使用哈希加链表的方式,将te

2016-10-26 20:05:00 2392

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除