hadoop
文章平均质量分 76
流云晨风
这个作者很懒,什么都没留下…
展开
-
Mapreduce运行67%异常解决
错误信息如下: 经查询为比较器方法调用错误 //错误代码为: job.setSortComparatorClass(ReduceGroupComparetor2.class); //修改为 job.setGroupingComparatorClass(ReduceGroupComparetor2.class);然后就可以正常运行了 详细代码如下: package com.zhiyo原创 2017-10-17 17:09:03 · 1603 阅读 · 0 评论 -
TotalSort全排序(抽样取中值)
package com.zhiyou.bd17.mr1014; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.h原创 2017-10-16 23:21:44 · 627 阅读 · 0 评论 -
SecondarySort二次排序代码
package com.zhiyou.bd17.mr1014; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.P原创 2017-10-16 23:02:05 · 636 阅读 · 0 评论 -
DesDumplicate去重代码
package com.zhiyou.bd17.mr; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import org原创 2017-10-16 20:05:08 · 414 阅读 · 0 评论 -
UserLoginTimes代码
package com.zhiyou.bd17.mr; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.转载 2017-10-16 19:49:14 · 482 阅读 · 0 评论 -
WordCount代码
package com.zhiyou.bd17.mr; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.原创 2017-10-16 19:20:35 · 998 阅读 · 0 评论 -
HdfsUtils
package com.zhiyou.db17; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.FileReader; import java.io.FileWriter; import java.io.IOException; import org.apache.原创 2017-10-16 12:52:41 · 2179 阅读 · 0 评论 -
hdfs的pom文件
4.0.0 com.zhiyou.db17 hdfsdb17 0.0.1-SNAPSHOT org.apache.hadoop hadoop-client 2.7.3原创 2017-10-16 12:46:32 · 901 阅读 · 0 评论 -
avro
Avro 是一个数据序列化系统,设计用于支持大批量数据交换的应用。是Hadoop的一个子项目。 它的主要特点有: 1 丰富的数据结构类型 2 快速可压缩的二进制数据形式 3 存储持久数据的文件容器 4 远程过程调用RPC 5 简单的动态语言结合功能,Avro和动态语言结合后,读写数据文件和使用RPC协议都不需要生成代码, 而代码生成作为一种原创 2017-10-18 21:02:39 · 316 阅读 · 0 评论 -
MapReduce的表关联
Join方式 (1)Reduce端连接 (2)Map端连接 (3)SemiJoin半连接 (1)Reduce端连接原理 Map端的主要工作:打标签,为来自不同表(文件)的key/value对打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和新加的标志作为value,最后进行输出。 reduce端的主要工作:在reduce端以连接字段作为key的分组已经完成,我们只原创 2017-10-17 21:29:34 · 766 阅读 · 0 评论 -
MapReduce的输入输出格式
默认的mapper是IdentityMapper,默认的reducer是IdentityReducer,它们将输入的键和值原封不动地写到输出中。 默认的partitioner是HashPartitinoer,它根据每条记录的键进行哈希操作来分区。 输入文件:文件是MapReduce任务的数据的初始存储地。正常情况下,输入文件一般是存在HDFS里。这些文件的格式可以是任意的;我转载 2017-10-17 00:01:55 · 462 阅读 · 0 评论