- 博客(19)
- 收藏
- 关注
原创 CDH6.3.0环境启用hive on spark执行hql失败记录
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. hbase-default.xml file seems to be for an older version of HBase (2.4.9), this version is 2.1.0-cdh6.3.0
2024-01-03 11:52:59 446 1
原创 hive外部表写数据到es报错:circuit_breaking_exception
B处的数就是上限,超过这个就报错。(缺省是它是ES最大内存的95%);D处的数值是本次操作(或者说执行当前的任务)所需要内存;C + D = A > B,所以触发了熔断器导致报错了。C处的数值是ES进程已使用的内存大小;A处的数为C+D的值;
2023-09-01 11:11:50 257 1
原创 hive mapper阶段报错beyond the ‘PHYSICAL‘ memory limit
经分析hive 执行过程,有3个job,stage-1使用17个mapper使用get_json_object函数处理数据job是执行成功的,处理的数据是一个json字符串。失败原因是单个container所需内存超过最大内存限制,json字符串中有两列数据是长字符,最大长度是505,初步定位原因是json被拆多列后,两列长字符占用较多内存。通过设置session客户端调大container内存后,hql执行成功。stage-3处理阶段只有1个mapper处理,通过日志发现执行过程是有失败重试的。
2023-08-25 11:43:49 776 1
原创 改造org.apache.flume.source.kafka.KafkaSource类
2、本地maven打包时报错:Failure to find com.sun.jdmk:jmxtools:jar:1.2.1,出现缺失com.sun.jdmk:jmxtools:jar:1.2.1的错误提示。诉求:系统通过kafka对接上游数据,上游数据格式使用json封装,因flume自带的KafkaSource类不能做到将kafka接收消息时间加入到落地消息中。错误原因是开源社区的插件是apache flume版本的,与CDH版本的不兼容,引用对应CDH的flume版本即可解决。
2023-08-15 10:00:15 168
原创 HIVE Error: Fixed Binary size 16 does not match field type length 12
Fixed Binary size 16 does not match field type length 12
2023-08-10 12:30:10 368 1
原创 Hive UDF reflect is not allowed问题记录
通过HiveServer2(beeline,ODBC,JDBC连接)运行查询时,默认情况下,Reflect UDF实际上已被列入黑名单,因为这可能会带来安全风险。这在hive CLI中有效,因为hive CLI不使用HiveServer2。JIRA在HDP 2.2.4及更高版本中可用。
2023-07-03 09:38:57 211 1
原创 with tmp_table_name as () insert overwrite table使用方法记录
一次临时的报表需求过来,其中有张来源表数据需要过滤,且过滤结果被多次使用。在考虑不新增上游新表(或者临时表),使用with as的方式达到这个效果,同时提高了数据使用率,降低了任务重复执行。
2023-07-03 09:14:32 276 1
原创 ERROR org.apache.flume.sink.hdfs.AbstractHDFSWriter: Error while trying to hflushOrSync!
flume.sink.hdfs.AbstractHDFSWriter
2022-11-21 16:00:27 902
原创 flume poll报错java.lang.OutOfMemoryError: GC overhead limit exceeded
flume
2022-09-23 16:04:13 606 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人