Hadoop下进行反向索引(Inverted Index)操作

原创 2011年01月07日 19:26:00

参考资料:
代码参考1:http://www.pudn.com/downloads212/sourcecode/unix_linux/detail999273.html
理论参考2:http://zhangyu8374.javaeye.com/blog/86307,http://nything.javaeye.com/blog/411787

在eclipse下创建map/reduce项目InvertedIndex,然后将参考1中的src目录拷贝到项目目录下替换原有src目录。

在本地创建文件夹IndexTest并在里面创建3个文件,每个文件中的内容如下。
    * T0 = "it is what it is"
    * T1 = "what is it"
    * T2 = "it is a banana"
其中T0,T1,T2分别是文件名,后面为文件内容。将IndexTest文件夹上传到DFS中。然后运行反向索引程序。

最后输出结果为:
a     (T2, 3)
banana     (T2, 4)
is     (T2, 2) (T0, 2) (T0, 5) (T1, 2)
it     (T1, 3) (T2, 1) (T0, 1) (T0, 4)
what     (T0, 3) (T1, 1)

 

代码清单:
InvertedIndex.java

 

TokenInputFormat.java

 

ValuePair.java

 

 

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

power mock 入门介绍及使用示例

相关框架 JUnit4、Mockit、PowerMock 相关maven依赖 junit junit 4.11 test

Python-Flask数据库的使用(MySQL)

使用Python连接MySQL和使用almbic来进行数据迁移

数据库交互和Flask-SQL Alchemy介绍

项目结构搭建 application |---manage.py 脚本数据 |---runserver.py 启动服务器 |---application web目录 |---app.conf 配置...
  • twc829
  • twc829
  • 2016-09-02 15:25
  • 2480

Flask Web 开发 数据库操作 Sqlalchemy

讲数据库操作了 创建表 首先,我们要让Flask-SQLAlchemy 根据模型类创建数据库。方法是使用db.create_all() 函数: (venv) $ python hello.py s...

flask学习笔记(-数据库)

flask 数据库

用户系统和Flask-Login介绍

目录: 注册 登录 浏览 Flask-Login 数据安全性 个人页面AJAX实现 注册 一、流程 1 用户名合法性检测(长度、敏感词、重复、特殊字符) 2 密码salt加密,密码强度检测 3...
  • twc829
  • twc829
  • 2016-09-09 13:57
  • 1268

系统吞吐量、TPS(QPS)、用户并发量、性能测试概念和公式

PS:下面是性能测试的主要概念和计算公式,记录下: 一.系统吞度量要素:   一个系统的吞度量(承压能力)与request对CPU的消耗、外部接口、IO等等紧密关联。 单个reqeust 对CP...
  • wind19
  • wind19
  • 2013-02-21 19:47
  • 163279

flask与MySQL的配置操作

预备知识: 1,roles表中为id列添加主键属性,另一张表users为role_id列添加外键属性,这样主键就对应上外键,产生了一旦在roles表中修改完角色名(roles表中的name列的行值)...

HashMap深度解析(一)

HashMap可以说是Java中最常用的集合类框架之一,是Java语言中非常典型的数据结构,我们总会在不经意间用到它,很大程度上方便了我们日常开发。在很多Java的笔试题中也会问到,最常见的,“Has...
  • ghsau
  • ghsau
  • 2013-11-22 00:11
  • 88016

LoadRunner性能图表分析

1、Average Transxction Response Time(事务平均响应时间) “平均事务响应时间”显示的是测试场景运行期间的每一秒事务执行所用的时间,通过它可以分析场景运行期间应用系统...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)