如何更改 datax 以支持hive 的 DECIMAL 数据类型?
1. JAVA 数据类型 - float/double 与 BigDecimal
大家知道,JAVA中可以用来存储小数的数字类型,主要包括:
- 基本数据类型 float/double;
- 基本数据类型的对应包装类 java.lang.Float/java.lang.Double;
- java.math 包下的类 java.math.BigDecimal
一般来讲,在不需要完全精确的计算结果的场景下,可以直接使用 float 或 double 数据类型,其运算效率更高;而在需要精确计算结果的场景下,则必须使用 BigDecimal类,比如金融场景下涉及金额的计算,就必须是完全精确的计算:
- Decimal data types store exact representations of numeric values, while DOUBLE data types store very close approximations of numeric values.
- Decimal types are needed for use cases in which the (very close) approximation of a DOUBLE is insufficient, such as financial applications, equality and inequality checks, and rounding operations.
- Decimal types are also needed for use cases that deal with numbers outside the DOUBLE range.
在使用 BigDecimal 时,以下细节需要注意:
- BigDecimal 有多个构造方法,其中参数类型为 double 的构造方法的精度不能保证,其结果有一定的不可预知性,所以不推荐使用参数类型为 double 的构造方法(数值 0.1 无法准确地表示为 double数据类型);
- BigDecimal 有多个构造方法,如果希望 BigDecimal 能够精确地表示期望的数值,那么一定要使用参数类型为 String 的构造方法,如 BigDecimal a = new BigDecimal(“0.1”) ;
- 如果不是很在乎是否完全精确地表示,并使用了 BigDecimal(double),那么要注意 double 本身的特例,double 的规范本身定义了几个特殊的 double值 (Infinite,-Infinite,NaN),不要把这些值传给 BigDecimal,否则会抛出异常;
- 当必须将 double 用作 BigDecimal 的数据来源时,建议先使用 Double.toString(double) 将 double 数值转换为 String,然后使用 参数类型为 String 的构造方法;
BigDecimal a = new BigDecimal(double d); //不推荐使用参数类型为 double 的构造方法,精度不能保证;
BigDecimal b= new BigDecimal(String s); //推荐使用参数类型为 String 的构造方法
static BigDecimal valueOf(double d); //也可以使用 valueOf 静态方法
DecimalFormat df = new DecimalFormat("#.##");// 可以使用 java.text.DecimalFormat 进行格式化,如这里保留2为小数
df.setRoundingMode(RoundingMode.HALF_UP);// 可以指定具体的的舍入模式枚举类 java.math.RoundingMode,默认五舍六入,如这里指定四舍五入;
2. hive 数据类型 - Double,DECIMAL,Numeric
hive 支持以下数字类数据类型,其中 FLOAT 和 DOUBLE 数据类型很早就支持了,而 Decimal 和 NUMERIC 数据类型是后续退出的: