DataX之hdfsreader踩坑之路

1、使用kerberos认证
报错:java.lang.IllegalArgumentException:Can’t get kerberos realm
原因:这是由于datax并没有读取到krb5.conf这个文件
解决方法:1)需将该文件绝对路径配置到环境变量中
2)修改datax源码,增加System.setProperty(“java.security.krb5.conf”,FilePath)
3)配置参数-Djava.security.krb5.conf=FILE_PATH
bin/datax.py -p “-Djava.security.krb5.conf=/data/chnrwd/krb5.conf” job/hive_job.json
2、报错:javax.security.sasl.SaslException: No common protection layer between client and server
原因:由服务端与客户端配置项hadoop.rpc.protection不一致导致
解决方法:增加参数 “hadoopConfig”:{“hadoop.rpc.protection”:“privacy”}
3、报错:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.standbyException): Operation category READ is not supported in state standby
原因:参数设置的是处于standby主节点的地址

ping两个集群的namenode节点,看是否能够ping通

DataX 中使用 HdfsReaderHdfsWriter 插件读写 Parquet 类型文件时,需要注意组件版本的兼容性。 Parquet 是一种高效的列式存储格式,可以优化数据的存储和处理效率,因此被广泛应用于大数据场景中。但是,不同版本的 Hadoop 集群和 Parquet 组件之间存在兼容性问题,可能会导致读写数据失败或者出现数据损坏的情况。 因此,为了保证 HdfsReaderHdfsWriter 插件能够正确地读写 Parquet 类型文件,需要适配实际生产环境 Hadoop 集群组件的版本。具体来说,需要注意以下几点: 1. Hadoop 版本兼容性:HdfsReaderHdfsWriter 插件需要和 Hadoop 版本保持一致,否则可能会出现读写数据失败的情况。在选择 Hadoop 版本时,需要考虑实际生产环境的组件版本和兼容性要求。 2. Parquet 版本兼容性:HdfsReaderHdfsWriter 插件需要和 Parquet 版本保持一致,否则可能会出现读写数据失败或者出现数据损坏的情况。在选择 Parquet 版本时,需要考虑实际生产环境的组件版本和兼容性要求。 3. 配置参数的设置:HdfsReaderHdfsWriter 插件读写 Parquet 类型文件时,需要设置一些特定的参数,如文件格式、压缩方式、Schema 等。这些参数需要根据实际生产环境的组件版本和配置要求进行设置。 总的来说,为了保证 HdfsReaderHdfsWriter 插件能够正确地读写 Parquet 类型文件,需要根据实际生产环境的组件版本和兼容性要求进行适配和设置。需要仔细查看官方文档,并测试验证读写操作是否正常。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值