ZL_bigdata
码龄7年
关注
提问 私信
  • 博客:8,012
    8,012
    总访问量
  • 7
    原创
  • 1,642,989
    排名
  • 329
    粉丝
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2017-12-05
博客简介:

ZL_javaco的博客

查看详细资料
个人成就
  • 获得1次点赞
  • 内容获得1次评论
  • 获得6次收藏
创作历程
  • 2篇
    2022年
  • 5篇
    2021年
成就勋章
兴趣领域 设置
  • 大数据
    flink
  • 人工智能
    机器学习深度学习神经网络tensorflow数据分析
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

项目管理的十大知识领域与五大过程逻辑

发布资源 2023.05.25 ·
jpg

Hudi--mor表 VS cow表

hudi实践
原创
发布博客 2022.06.14 ·
2490 阅读 ·
0 点赞 ·
1 评论 ·
5 收藏

HUDI-update报错Null-value for required field:***

一、抛出问题环境:aws EMR s3hudi-0.10.1spark-3.1.2hive-3.1.2hadoop-3.2.1错误日志Caused by: org.apache.hudi.exception.HoodieUpsertException: Failed to merge old record into new file for key cat_id:201225781 from old file s3://...parquet to new file s3://...p
原创
发布博客 2022.05.08 ·
1625 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

pyspark多线程DF写Hive,出现重复数据及解决办法

背景: 数据中某字段A需要进行转换,批次拉取后进行行处理 为提高效率,将大批次分为10个小批次,分线程处理read_df = hive_context.sql(hivesql)allrows = read_df.collect()#此处将大批次分为10个小批次,分线程处理temp_list = list_of_groups(allrows, 10) # step3 line handel threads = [] for i in ra...
原创
发布博客 2021.12.01 ·
1437 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hudi的insert

一、概要:先看原文吧,Hudi官方公众号推出的‘数据更快导入Hudi’。略有受益,感到有必要做个总结。如何将数据更快导入Apache Hudi?文章围绕的对象是bulk_insert: 其中包含三种原生模式和支持自定义拓展模式。二、配置:hoodie.bulkinsert.sort.mode--可配:NONE、GLOBAL_SORT、PARTITION_SORT--默认:GLOBAL_SORT三、模式:3.1GLOBAL_SORT(全局排序):...
原创
发布博客 2021.09.26 ·
1685 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

kafka message size

一:异常信息21/09/23 10:39:46 ERROR internals.ErrorLoggingCallback: Error when sending message to topic ad_source_mob_prtsc with key: null, value: 5242233 bytes with error:org.apache.kafka.common.errors.RecordTooLargeException: The message is 5242321 bytes w
原创
发布博客 2021.09.25 ·
376 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

记flume发往kafka的一次配置

1.配置flume-conf.propertiesbuttery.sources = buttSourcebuttery.channels = buttChannel# sourcebuttery.sources.buttSource.type = spooldirbuttery.sources.buttSource.spoolDir = /home/flume/inputbuttery.sources.buttSource.deserializer = LINEbuttery.sour
原创
发布博客 2021.09.03 ·
216 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

CentOS-8环境ifconfig时ens失踪

1.保证NetworkManager开启2.nmcli n on
原创
发布博客 2021.09.01 ·
179 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏