- 博客(6)
- 资源 (41)
- 收藏
- 关注
原创 ProtocolBuffer 结合 LZO在 Hadoop中的使用(二)
ProtocolBuffer 结合 LZO在 Hadoop中的使用(二) 1.LZO介绍LZO是一种高压缩比和解压速度极快的编码, 特点是解压缩速度非常快。LZO是无损压缩,压缩后的数据能准确还原LZO是基于block分块的,允许数据被分解成chunk,能够被并行的解压安装可以参照这篇文章:LZO安装2.如何编写读取写出 protocolBuff
2012-09-28 01:13:53 3670
原创 ProtocolBuffer 结合 LZO在 Hadoop中的使用(一)
ProtocolBuffer结合LZO在 Hadoop中的使用(一)1.ProtocolBuffer首先介绍一下ProtocolBuffer吧,可以参考:Protocol Buffer官网Protocol buffers are a flexible, efficient, automated mechanism for serializing structured data – th
2012-09-27 12:00:15 1317
原创 信息检索导论学习笔记(二) 词项词典和倒排记录表
信息检索导论学习笔记(二) 词项词典和倒排记录表文档的分析和编码的转换1.生成字符序列2.文档单位的选择词项集合的选择(1)词条化词条化处理往往与语言本省有关,不同语言下的词条化并不相同。(2)去除停用词(3)归并处理(4)词干还原(stemming)和词形归并(lemmatization)基于跳表的倒排记录表快速归并算法(skip list)在更号
2012-09-12 10:41:44 1012
原创 信息检索导论学习笔记(三) 词词典及容错式检索
信息检索导论学习笔记(三) 词词典及容错式检索1.词典搜索的数据结构哈希表方式查询速度快,但是无法处理前缀式查询搜索树方式 注意搜索树的平衡性2.通配符查询(1)反向B-树通配符不出现在末尾的情况,出现在起始位置。结合B-树和反向B-树通配符在中间的情况(2)轮转索引能查询通配符在中间的情况,但是词典会变大k-gr
2012-09-12 09:19:15 1489
原创 信息检索导论学习笔记(一) 布尔检索
信息检索导论学习笔记(一)布尔检索定义信息检索是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程。倒排索引为提高查询效率,建立倒排索引习题解答:1-10X or YIntersect(p1,p2)answer <- {}while p1!=NULL and p2!=NULLd
2012-09-11 21:10:46 2077
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人