- 博客(6)
- 资源 (41)
- 收藏
- 关注
原创 ProtocolBuffer 结合 LZO在 Hadoop中的使用(二)
ProtocolBuffer 结合 LZO在 Hadoop中的使用(二) 1.LZO介绍 LZO是一种高压缩比和解压速度极快的编码, 特点是 解压缩速度非常快。 LZO是无损压缩,压缩后的数据能准确还原 LZO是基于block分块的,允许数据被分解成chunk,能够被并行的解压 安装可以参照这篇文章:LZO安装 2.如何编写读取写出 protocolBuff
2012-09-28 01:13:53 3682
原创 ProtocolBuffer 结合 LZO在 Hadoop中的使用(一)
ProtocolBuffer结合LZO在 Hadoop中的使用(一) 1.ProtocolBuffer 首先介绍一下ProtocolBuffer吧,可以参考:Protocol Buffer官网 Protocol buffers are a flexible, efficient, automated mechanism for serializing structured data – th
2012-09-27 12:00:15 1331
原创 信息检索导论学习笔记(二) 词项词典和倒排记录表
信息检索导论学习笔记(二) 词项词典和倒排记录表 文档的分析和编码的转换 1.生成字符序列 2.文档单位的选择 词项集合的选择 (1)词条化 词条化处理往往与语言本省有关,不同语言下的词条化并不相同。 (2)去除停用词 (3)归并处理 (4)词干还原(stemming)和词形归并(lemmatization) 基于跳表的倒排记录表快速归并算法(skip list) 在更号
2012-09-12 10:41:44 1033
原创 信息检索导论学习笔记(三) 词词典及容错式检索
信息检索导论学习笔记(三) 词词典及容错式检索 1.词典搜索的数据结构 哈希表方式 查询速度快,但是无法处理前缀式查询 搜索树方式 注意搜索树的平衡性 2.通配符查询 (1) 反向B-树 通配符不出现在末尾的情况,出现在起始位置。 结合B-树和反向B-树 通配符在中间的情况 (2) 轮转索引 能查询通配符在中间的情况,但是词典会变大 k-gr
2012-09-12 09:19:15 1505
原创 信息检索导论学习笔记(一) 布尔检索
信息检索导论学习笔记(一)布尔检索 定义 信息检索是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程。 倒排索引 为提高查询效率,建立倒排索引 习题解答: 1-10 X or Y Intersect(p1,p2) answer <- {} while p1!=NULL and p2!=NULL d
2012-09-11 21:10:46 2105
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人