ProtocolBuffer 结合 LZO在 Hadoop中的使用(二)

ProtocolBuffer 结合 LZO在 Hadoop中的使用(二) 1.LZO介绍 LZO是一种高压缩比和解压速度极快的编码, 特点是 解压缩速度非常快。 LZO是无损压缩,压缩后的数据能准确还原 LZO是基于block分块的,允许数据被分解成chunk,能够被并...

2012-09-28 01:13:53

阅读数:3416

评论数:0

ProtocolBuffer 结合 LZO在 Hadoop中的使用(一)

ProtocolBuffer结合LZO在 Hadoop中的使用(一) 1.ProtocolBuffer 首先介绍一下ProtocolBuffer吧,可以参考:Protocol Buffer官网 Protocol buffers are a flexible, efficient, autom...

2012-09-27 12:00:15

阅读数:1198

评论数:0

信息检索导论学习笔记(四) 索引构建

信息检索导论学习笔记(四) 索引构建 1.基于块的排序索引方法 2.内存是单遍扫描索引构建方法

2012-09-12 11:03:22

阅读数:923

评论数:0

信息检索导论学习笔记(二) 词项词典和倒排记录表

信息检索导论学习笔记(二) 词项词典和倒排记录表 文档的分析和编码的转换 1.生成字符序列 2.文档单位的选择 词项集合的选择 (1)词条化 词条化处理往往与语言本省有关,不同语言下的词条化并不相同。 (2)去除停用词 (3)归并处理 (4)词干还原(stemming)和词形...

2012-09-12 10:41:44

阅读数:745

评论数:0

信息检索导论学习笔记(三) 词词典及容错式检索

信息检索导论学习笔记(三) 词词典及容错式检索 1.词典搜索的数据结构 哈希表方式 查询速度快,但是无法处理前缀式查询 搜索树方式 注意搜索树的平衡性 2.通配符查询 (1) 反向B-树 通配符不出现在末尾的情况,出现在起始位置。 结合B-树和反向B-树 ...

2012-09-12 09:19:15

阅读数:1181

评论数:0

信息检索导论学习笔记(一) 布尔检索

信息检索导论学习笔记(一)布尔检索 定义 信息检索是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程。 倒排索引 为提高查询效率,建立倒排索引 习题解答: 1-10 X or Y Intersec...

2012-09-11 21:10:46

阅读数:1617

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭