![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 76
流云晨风
这个作者很懒,什么都没留下…
展开
-
Mapreduce运行67%异常解决
错误信息如下:经查询为比较器方法调用错误 //错误代码为: job.setSortComparatorClass(ReduceGroupComparetor2.class); //修改为 job.setGroupingComparatorClass(ReduceGroupComparetor2.class);然后就可以正常运行了详细代码如下:package com.zhiyo原创 2017-10-17 17:09:03 · 1603 阅读 · 0 评论 -
TotalSort全排序(抽样取中值)
package com.zhiyou.bd17.mr1014;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.h原创 2017-10-16 23:21:44 · 627 阅读 · 0 评论 -
SecondarySort二次排序代码
package com.zhiyou.bd17.mr1014;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.P原创 2017-10-16 23:02:05 · 636 阅读 · 0 评论 -
DesDumplicate去重代码
package com.zhiyou.bd17.mr;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org原创 2017-10-16 20:05:08 · 413 阅读 · 0 评论 -
UserLoginTimes代码
package com.zhiyou.bd17.mr;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.转载 2017-10-16 19:49:14 · 482 阅读 · 0 评论 -
WordCount代码
package com.zhiyou.bd17.mr;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.原创 2017-10-16 19:20:35 · 998 阅读 · 0 评论 -
HdfsUtils
package com.zhiyou.db17;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.FileReader;import java.io.FileWriter;import java.io.IOException;import org.apache.原创 2017-10-16 12:52:41 · 2179 阅读 · 0 评论 -
hdfs的pom文件
4.0.0 com.zhiyou.db17 hdfsdb17 0.0.1-SNAPSHOT org.apache.hadoop hadoop-client 2.7.3原创 2017-10-16 12:46:32 · 901 阅读 · 0 评论 -
avro
Avro 是一个数据序列化系统,设计用于支持大批量数据交换的应用。是Hadoop的一个子项目。它的主要特点有:1 丰富的数据结构类型2 快速可压缩的二进制数据形式3 存储持久数据的文件容器4 远程过程调用RPC5 简单的动态语言结合功能,Avro和动态语言结合后,读写数据文件和使用RPC协议都不需要生成代码,而代码生成作为一种原创 2017-10-18 21:02:39 · 316 阅读 · 0 评论 -
MapReduce的表关联
Join方式(1)Reduce端连接(2)Map端连接(3)SemiJoin半连接(1)Reduce端连接原理Map端的主要工作:打标签,为来自不同表(文件)的key/value对打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和新加的标志作为value,最后进行输出。reduce端的主要工作:在reduce端以连接字段作为key的分组已经完成,我们只原创 2017-10-17 21:29:34 · 766 阅读 · 0 评论 -
MapReduce的输入输出格式
默认的mapper是IdentityMapper,默认的reducer是IdentityReducer,它们将输入的键和值原封不动地写到输出中。默认的partitioner是HashPartitinoer,它根据每条记录的键进行哈希操作来分区。 输入文件:文件是MapReduce任务的数据的初始存储地。正常情况下,输入文件一般是存在HDFS里。这些文件的格式可以是任意的;我转载 2017-10-17 00:01:55 · 461 阅读 · 0 评论