关闭
当前搜索:

ZeroCopyLiteralByteString cannot access superclass

问题描述 在HBase上运行MapReduce作业时,报如下异常:IllegalAccessError: class com.google.protobuf.HBaseZeroCopyByteString cannot access its superclass com.google.protobuf.LiteralByteString 使用HBase环境如下:CDH5.0.1, HB...
阅读(1163) 评论(0)

Hadoop Writable机制

《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》第3章序列化与压缩,本章涉及了org.apache.hadoop.io包下最重要的两部分内容:序列化和压缩。本节为大家介绍Hadoop Writable机制。 AD:WOT2015 互联网运维与开发者大会 热销抢票 3.1.4 Hadoop Writable机制 为了支...
阅读(382) 评论(0)

搜索背后的奥秘——浅谈语义主题计算

摘要: 两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。近些年来各大互联网公司都开始了这方面的探索和尝试。就让我们看一下究竟吧。...
阅读(639) 评论(0)

Hadoop中Writable和WritableComparable区别

Hadoop的key和value的传递序列化需要涉及两个重要的接口Writable和WritableComparable 1> Writable: void write(DataOutput out) throws IOException;  void readFields(DataInput in) throws IOException;  也就是读数据和...
阅读(382) 评论(0)

Hadoop源码导入Eclipse

需要进一步学习hadoop、需要看看内部源码实现,因此需要将hadoop源码导入都eclipse中,简单总结一下,具体步骤如下: 首先确保已经安装了git、maven3、protobuf2.5、如果没有安装需要提前安装一下 1、下载hadoop源码 git clone git://git.apache.org/hadoop-common.git 2、进入hadoop-com...
阅读(1185) 评论(0)

MapReduce DataJoin 链接多数据源

主要介绍用DataJoin类来链接多数据源,先看一下例子,假设二个数据源customs和orders customer ID       Name      PhomeNumber 1                        赵一        025-5455-566 2                        钱二        025-4587-565 3...
阅读(310) 评论(0)

MapReduce TopK统计加排序

Hadoop技术内幕中指出Top K算法有两步,一是统计词频,二是找出词频最高的前K个词。在网上找了很多MapReduce的Top K案例,这些案例都只有排序功能,所以自己写了个案例。 这个案例分两个步骤,第一个是就是wordCount案例,二就是排序功能。 一,统计词频 view sourceprint? 01.1 package TopK; 0...
阅读(1083) 评论(0)

MapReduce的自制Writable分组输出及组内排序

问题描述: 输入文件格式如下: name1    2 name3    4 name1    6 name1    1 name3    3 name1    0 要求输出的文件格式如下: name1    0,1,2,6 name3    3,4 要求是按照第一列分组,name1与name3也是按照顺序排列的,组内升序排序。 ...
阅读(484) 评论(0)
    个人资料
    • 访问:1219465次
    • 积分:9328
    • 等级:
    • 排名:第2218名
    • 原创:120篇
    • 转载:222篇
    • 译文:1篇
    • 评论:147条
    最新评论