自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 CDH6.3.0环境启用hive on spark执行hql失败记录

FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. hbase-default.xml file seems to be for an older version of HBase (2.4.9), this version is 2.1.0-cdh6.3.0

2024-01-03 11:52:59 446 1

原创 hive外部表写数据到es报错:circuit_breaking_exception

B处的数就是上限,超过这个就报错。(缺省是它是ES最大内存的95%);D处的数值是本次操作(或者说执行当前的任务)所需要内存;C + D = A > B,所以触发了熔断器导致报错了。C处的数值是ES进程已使用的内存大小;A处的数为C+D的值;

2023-09-01 11:11:50 257 1

原创 hive mapper阶段报错beyond the ‘PHYSICAL‘ memory limit

经分析hive 执行过程,有3个job,stage-1使用17个mapper使用get_json_object函数处理数据job是执行成功的,处理的数据是一个json字符串。失败原因是单个container所需内存超过最大内存限制,json字符串中有两列数据是长字符,最大长度是505,初步定位原因是json被拆多列后,两列长字符占用较多内存。通过设置session客户端调大container内存后,hql执行成功。stage-3处理阶段只有1个mapper处理,通过日志发现执行过程是有失败重试的。

2023-08-25 11:43:49 776 1

原创 改造org.apache.flume.source.kafka.KafkaSource类

2、本地maven打包时报错:Failure to find com.sun.jdmk:jmxtools:jar:1.2.1,出现缺失com.sun.jdmk:jmxtools:jar:1.2.1的错误提示。诉求:系统通过kafka对接上游数据,上游数据格式使用json封装,因flume自带的KafkaSource类不能做到将kafka接收消息时间加入到落地消息中。错误原因是开源社区的插件是apache flume版本的,与CDH版本的不兼容,引用对应CDH的flume版本即可解决。

2023-08-15 10:00:15 168

原创 HIVE Error: Fixed Binary size 16 does not match field type length 12

Fixed Binary size 16 does not match field type length 12

2023-08-10 12:30:10 368 1

原创 No log4j2 configuration file found

No log4j2 configuration file found

2023-07-13 09:21:13 346 1

原创 linkis简介

linkis

2023-07-10 08:51:03 219 1

原创 Hive UDF reflect is not allowed问题记录

通过HiveServer2(beeline,ODBC,JDBC连接)运行查询时,默认情况下,Reflect UDF实际上已被列入黑名单,因为这可能会带来安全风险。这在hive CLI中有效,因为hive CLI不使用HiveServer2。JIRA在HDP 2.2.4及更高版本中可用。

2023-07-03 09:38:57 211 1

原创 with tmp_table_name as () insert overwrite table使用方法记录

一次临时的报表需求过来,其中有张来源表数据需要过滤,且过滤结果被多次使用。在考虑不新增上游新表(或者临时表),使用with as的方式达到这个效果,同时提高了数据使用率,降低了任务重复执行。

2023-07-03 09:14:32 276 1

原创 使用sort_array和collect_list对数组内的元素排序

sort_array对collect_list返回数组排序

2023-02-20 16:37:59 555

原创 sqoop使用笔记

sqoop使用笔记

2023-02-01 15:06:59 149

原创 hive查看分区数据量关键字

hive查看分区数据量

2023-01-19 18:03:09 336

原创 hive数据类型允许的隐式转换

hive数据类型隐式转换

2023-01-09 15:29:39 262

原创 hive分区表分区数据量统计

hive分区表分区数据量统计

2023-01-09 11:37:36 230

原创 Hive多维分析函数-GROUPING SETS、GROUPING__ID、CUBE、ROLLUP

Hive多维分析

2023-01-09 11:12:33 338

原创 ERROR org.apache.flume.sink.hdfs.AbstractHDFSWriter: Error while trying to hflushOrSync!

flume.sink.hdfs.AbstractHDFSWriter

2022-11-21 16:00:27 902

原创 flume poll报错java.lang.OutOfMemoryError: GC overhead limit exceeded

flume

2022-09-23 16:04:13 606 1

原创 Flume总结

flume

2022-08-04 12:02:58 95

原创 flume多路复用分发数据到不同管道落地测试代码

flume

2022-08-03 17:31:35 120

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除