![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
donger__chen
这个作者很懒,什么都没留下…
展开
-
MapReduce之join
1.ReduceJoinBeanimport org.apache.hadoop.io.Writable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;public class OrderBean implements Writable { private String orderId; private String prodId; private int原创 2020-12-27 17:13:00 · 248 阅读 · 0 评论 -
用WordCount读懂MapReduce框架
1.MapReduce框架介绍2.MapReduce之WordCount代码一个MapReduce代码可以包括以下几个部分MapperPartitionerCombinerReducer自定义类import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;public class WCBe原创 2020-12-26 20:18:20 · 90 阅读 · 0 评论 -
Hadoop之MapReduce编程
MapReduce编程基础0. MR与Java的数据类型对比MRJavabooleanBooleanWritablebyteByteWritableintIntWritablefloatFloatWritablelongLongWritabledoubleDoubleWritableStringTextmapMapWritablearrayArrayWritable//数据类型所在java包import org原创 2020-12-13 15:33:23 · 1324 阅读 · 0 评论 -
Hadoop Streaming,使用python编写Hadoop计算脚本
(注:内容来自《Hadoop数据分析》) Hadoop Streaming与Spark Streaming或其他使用“无界数据流”的实时计算框架不同。Hadoop Streaming中的“流”指的是标准的Unix流 stdin,stdout,stderr。 为了执行MapReduce作业,Streaming利用标准的Unix流进行输入和输出,因此得名Streaming。...原创 2019-05-22 20:50:20 · 593 阅读 · 0 评论 -
HDFS
HDFS(Hadoop Distributed Files System ,Hadoop分布式文件系统)是一个块结构的文件系统。它将一个文件按块划分成多个子块,并将子块复制多份存储于多个节点上,从而达到容错的效果。HDFS包含两类节点:NameNode和DataNode。NameNode用于管理元数据,如文件名称,权限,文件地址等;DataNode用于存储实际的数据。NameNode周期性地接...原创 2019-05-21 20:52:09 · 87 阅读 · 0 评论 -
Hadoop简单随机采样
(注:内容来自《Hadoop数据分析》)基于Hadoop的两种采样模式:百分比采样和N样本采样。1.随机百分比采样:从样本中随机抽取一个比例的样本,一种方法是对每条数据简单地使用随机数生成器来产生[0,1]上均匀分布的随机数,并将其与期望的阈值大小进行比较,小于阈值的留下,大于阈值的跳过。mapper.pyimport random# class Mapper可参考上一篇博...原创 2019-05-23 20:54:17 · 1549 阅读 · 0 评论