自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 Hudi--mor表 VS cow表

hudi实践

2022-06-14 20:01:11 2389 1

原创 HUDI-update报错Null-value for required field:***

一、抛出问题环境:aws EMR s3hudi-0.10.1spark-3.1.2hive-3.1.2hadoop-3.2.1错误日志Caused by: org.apache.hudi.exception.HoodieUpsertException: Failed to merge old record into new file for key cat_id:201225781 from old file s3://...parquet to new file s3://...p

2022-05-08 07:58:15 1499

原创 pyspark多线程DF写Hive,出现重复数据及解决办法

背景: 数据中某字段A需要进行转换,批次拉取后进行行处理 为提高效率,将大批次分为10个小批次,分线程处理read_df = hive_context.sql(hivesql)allrows = read_df.collect()#此处将大批次分为10个小批次,分线程处理temp_list = list_of_groups(allrows, 10) # step3 line handel threads = [] for i in ra...

2021-12-01 16:51:41 1382

原创 Hudi的insert

一、概要:先看原文吧,Hudi官方公众号推出的‘数据更快导入Hudi’。略有受益,感到有必要做个总结。如何将数据更快导入Apache Hudi?文章围绕的对象是bulk_insert: 其中包含三种原生模式和支持自定义拓展模式。二、配置:hoodie.bulkinsert.sort.mode--可配:NONE、GLOBAL_SORT、PARTITION_SORT--默认:GLOBAL_SORT三、模式:3.1GLOBAL_SORT(全局排序):...

2021-09-26 13:13:07 1603

原创 kafka message size

一:异常信息21/09/23 10:39:46 ERROR internals.ErrorLoggingCallback: Error when sending message to topic ad_source_mob_prtsc with key: null, value: 5242233 bytes with error:org.apache.kafka.common.errors.RecordTooLargeException: The message is 5242321 bytes w

2021-09-25 16:04:37 351

原创 记flume发往kafka的一次配置

1.配置flume-conf.propertiesbuttery.sources = buttSourcebuttery.channels = buttChannel# sourcebuttery.sources.buttSource.type = spooldirbuttery.sources.buttSource.spoolDir = /home/flume/inputbuttery.sources.buttSource.deserializer = LINEbuttery.sour

2021-09-03 14:13:49 185

原创 CentOS-8环境ifconfig时ens失踪

1.保证NetworkManager开启2.nmcli n on

2021-09-01 15:41:51 146

项目管理的十大知识领域与五大过程逻辑

粒度细化到知识域中每个过程的输入和输出项

2023-05-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除