如何更改 datax 以支持hive 的 DECIMAL 数据类型?

如何更改 datax 以支持hive 的 DECIMAL 数据类型?

1. JAVA 数据类型 - float/double 与 BigDecimal

大家知道,JAVA中可以用来存储小数的数字类型,主要包括:

  • 基本数据类型 float/double;
  • 基本数据类型的对应包装类 java.lang.Float/java.lang.Double;
  • java.math 包下的类 java.math.BigDecimal

一般来讲,在不需要完全精确的计算结果的场景下,可以直接使用 float 或 double 数据类型,其运算效率更高;而在需要精确计算结果的场景下,则必须使用 BigDecimal类,比如金融场景下涉及金额的计算,就必须是完全精确的计算:

  • Decimal data types store exact representations of numeric values, while DOUBLE data types store very close approximations of numeric values.
  • Decimal types are needed for use cases in which the (very close) approximation of a DOUBLE is insufficient, such as financial applications, equality and inequality checks, and rounding operations.
  • Decimal types are also needed for use cases that deal with numbers outside the DOUBLE range.

在使用 BigDecimal 时,以下细节需要注意:

  • BigDecimal 有多个构造方法,其中参数类型为 double 的构造方法的精度不能保证,其结果有一定的不可预知性,所以不推荐使用参数类型为 double 的构造方法(数值 0.1 无法准确地表示为 double数据类型);
  • BigDecimal 有多个构造方法,如果希望 BigDecimal 能够精确地表示期望的数值,那么一定要使用参数类型为 String 的构造方法,如 BigDecimal a = new BigDecimal(“0.1”) ;
  • 如果不是很在乎是否完全精确地表示,并使用了 BigDecimal(double),那么要注意 double 本身的特例,double 的规范本身定义了几个特殊的 double值 (Infinite,-Infinite,NaN),不要把这些值传给 BigDecimal,否则会抛出异常;
  • 当必须将 double 用作 BigDecimal 的数据来源时,建议先使用 Double.toString(double) 将 double 数值转换为 String,然后使用 参数类型为 String 的构造方法;
BigDecimal a = new BigDecimal(double d); //不推荐使用参数类型为 double 的构造方法,精度不能保证;
BigDecimal b= new BigDecimal(String s); //推荐使用参数类型为 String 的构造方法
static BigDecimal valueOf(double d); //也可以使用 valueOf 静态方法
DecimalFormat df = new DecimalFormat("#.##");// 可以使用 java.text.DecimalFormat 进行格式化,如这里保留2为小数
df.setRoundingMode(RoundingMode.HALF_UP);// 可以指定具体的的舍入模式枚举类 java.math.RoundingMode,默认五舍六入,如这里指定四舍五入;

2. hive 数据类型 - Double,DECIMAL,Numeric

hive 支持以下数字类数据类型,其中 FLOAT 和 DOUBLE 数据类型很早就支持了,而 Decimal 和 NUMERIC 数据类型是后续退出的:

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
DataX是一个开源的数据同步工具,它在默认情况下不支持HiveDecimal数据类型。然而,根据引用\[2\]中的信息,我们可以通过修改DataX的源码来增强它的功能,以支持HiveDecimal数据类型。 具体来说,我们可以在DataX的代码中使用Hive的API来将数据转换为期望的精度和标度DECIMAL(precision, scale)。这可以通过使用org.apache.hadoop.hive.serde2.typeinfo.HiveDecimalUtils#enforcePrecisionScale()和org.apache.hadoop.hive.common.type.HiveDecimal#enforcePrecisionScale这两个API来实现。这样,我们就可以在DataX中使用Decimal数据类型了。 需要注意的是,DataX有自己的数据类型,如long/Double/String/Date/Boolean/Bytes等。引用\[3\]中提到,DataX的Double类型在内部使用java.math.BigDecimal来存储数据,因此不会损失数据精度。为了支持HiveDecimal数据类型,我们可以在DataX的代码中进行相应的转换。 总结起来,要使DataX支持Decimal数据类型,我们需要在DataX的源码中进行二次开发和增强,使用Hive的API来进行数据转换。这样,我们就可以在DataX中使用HiveDecimal数据类型了。 #### 引用[.reference_title] - *1* *3* [如何更改 datax支持hiveDECIMAL 数据类型?](https://blog.csdn.net/MichaelLi916/article/details/127631212)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [Datax-HdfsWriter如何实现支持decimal类型数据写入](https://blog.csdn.net/SOFT2030/article/details/124344172)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

明哥的IT随笔

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值