hadoop
forwardMyLife
只争朝夕
展开
-
用hadoop实现倒排索引简单实例
用hadoop实现倒排索引简单实例倒排索引是文档搜索系统中常用的数据结构,即根据内容进行文档的搜索,本次我们利用mapReduce来分析和统计单词在每个文档中的权重,输入2个单词的txt文本,经过mapreduce的处理,将结果以{单词 1.txt:权重,2.txt:权重}逐行输出到output目录下。切记单个文件不要超过HDFS单个块的大小,保证一个文件一个split.否则会出现词频统计不完全。原创 2017-10-30 15:34:54 · 2969 阅读 · 0 评论 -
Hbase伪分布式安装
HBase是基于谷歌的Bigtable建模的开源、分布式、版本化、非关系数据库,key-value存储的分布式数据库.它是hadoop生态圈中重要的一员。hbase将数据存贮与hdfs上,利用maperReduce框架强大的处理能力。为大数据系统提供支持。例如引用于搜索引擎,抓取增量数据,大数据分析系统…等。 下面介绍hbase的安装过程。 Liunx系统的 unbutu -14 64位 jd原创 2017-11-09 22:32:34 · 226 阅读 · 0 评论