Hadoop数据类型

Hadoop数据类型详解

最新推荐文章于 2022-09-12 17:50:12 发布

转载最新推荐文章于 2022-09-12 17:50:12 发布 · 2.7k 阅读

文章标签：

#Hadoop数据类型

Bigdatda-Hadoop1.0 专栏收录该内容

47 篇文章

订阅专栏

Hadoop数据类型

我们知道hadoop是由Java 编程写的。因此我们使用Java开发环境来操作HDFS,编写mapreduce也是很自然的事情。但是这里面hadoop却对Java数据类型进行了包装，那么hadoop的数据类型与Java那些数据类型对应。下面做一些对比：

一、 Hadoop数据类型介绍：

(1)在hadoop.io包，主要分为基本类型和其它类型。

(2)基本类型(hadoop:java)：
数据类型                    hadoop数据类型：                                 Java数据类型

布尔型                    *BooleanWritable                                      boolean
整型                     *IntWritable：                                               int
浮点float                *FloatWritable：                                            float
浮点型double          *DoubleWritable：                                         double
整数类型byte          *ByteWritable：                                           byte
这里说明一下，hadoop数据库类型与Java数据类型之间如何转换：
有两种方式
1.通过set方式
2.通过new的方式。

(3)其它(部分)：
*Text：hadoop：中对应Java数据类型string
*ArrayWritable：  中对应Java数据类型数组。

1.Hadoop的数据类型要求必须实现Writable接口。

2.java基本类型与Hadoop常见基本类型的对照

Long LongWritable

Integer IntWritable

Boolean BooleanWritable

String Text

问：java类型如何转化为hadoop基本类型？

答：调用hadoop类型的构造方法，或者调用set()方法。

newLongWritable(123L);

问：hadoop基本类型如何转化为java类型？

答：对于Text，需要调用toString()方法，其他类型调用get()方法。

Hadoop自定义数据类型

Hadoop的自定制数据类型

一般有两个办法，一种较为简单的是针对值，另外一种更为完整的是对于键和值都适应的方法：

1、实现Writable接口：

/* DataInput and DataOutput 类是java.io的类 */
public interface Writable {
void readFields(DataInput in);
void write(DataOutput out);
}

下面是一个小例子：

public class Point3D implement Writable {
  public float x, y, z;
 
  public Point3D(float fx, float fy, float fz) {
         this.x = fx;
         this.y = fy;
         this.z = fz;
  }
 
  public Point3D() {
         this(0.0f, 0.0f, 0.0f);
  }
 
  public void readFields(DataInput in) throws IOException {
         x = in.readFloat();
         y = in.readFloat();
         z = in.readFloat();
  }
 
  public void write(DataOutput out) throws IOException {
         out.writeFloat(x);
         out.writeFloat(y);
         out.writeFloat(z);
  }
 
  public String toString() {
         return Float.toString(x) + ", "
                + Float.toString(y) + ", "
                + Float.toString(z);
  }
}
2、对于键来说，需要指定排序规则(呃，这句话可能有点C++风格？)，对此，Java版Hadoop的办法是实现WritableComparable这个泛型接口，WritableComparable，顾名思义了，一半是Writable，一半是Comparable，有点啰嗦，但简明，据说Java程序员们打字快写？~~
public interface WritableComparable<T> {
  public void readFields(DataInput in);
  public void write(DataOutput out);
  public int compareTo(T other);
}
先给出下面的简单例子，再做说明和扩展。
public class Point3D inplements WritableComparable {
  public float x, y, z;
 
  public Point3D(float fx, float fy, float fz) {
         this.x = fx;
         this.y = fy;
         this.z = fz;
  }
 
  public Point3D() {
         this(0.0f, 0.0f, 0.0f);
  }
 
  public void readFields(DataInput in) throws IOException {
         x = in.readFloat();
         y = in.readFloat();
         z = in.readFloat();
  }
 
  public void write(DataOutput out) throws IOException {
         out.writeFloat(x);
         out.writeFloat(y);
         out.writeFloat(z);
  }
 
  public String toString() {
         return Float.toString(x) + ", "
                + Float.toString(y) + ", "
                + Float.toString(z);
  }
 
  public float distanceFromOrigin() {
         return (float) Math.sqrt( x*x + y*y +z*z);
  }
 
  public int compareTo(Point3D other) {
         return Float.compareTo(
                distanceFromOrigin(),
                other.distanceFromOrigin());
  }
 
  public boolean equals(Object o) {
         if( !(o instanceof Point3D)) {
                return false;
         }
         Point3D other = (Point3D) o;
         return this.x == o.x
                && this.y == o.y
                && this.z == o.z;
  }
 
  /* 实现 hashCode() 方法很重要
   * Hadoop的Partitioners会用到这个方法，后面再说
   */
  public int hashCode() {
         return Float.floatToIntBits(x)
                ^ Float.floatToIntBits(y)
                ^ Float.floatToIntBits(z);
  }
}

自定义Hadoop数据类型后，需要明确告诉Hadoop来使用它们。这是 JobConf 所能担当的了。使用setOutputKeyClass() /setOutputValueClass()方法即可：