疑难杂症
kk_io
这个作者很懒,什么都没留下…
展开
-
Spark的timestamp 数据时间问题
使用Spark来处理国际业务数据,涉及到数据时区转换,在实际项目中出现时区转换问题。但在实际Cluster 去run job的时候,如果给一个eff_dt为的时间,但是往往会出现df_eff_dt为20240131的日期。原创 2024-02-07 16:20:30 · 1015 阅读 · 0 评论 -
Spark streaming batch运行时间过长问题02
排查Spark streaming 数据写入时间过长问题,一方面是因为程序写数据湖小文件问题。在解决了小文件问题后,还是不能达到预期的1分钟一个batch。继续排查发现,在用Spark读取Kafka数据之后,由于数据通过Kafka读取后是逗号分隔的字符串,但是为了解决字符串某些字段中还有逗号的问题,只能使用正则表达式匹配,导致性能过慢。原创 2024-02-05 08:00:00 · 416 阅读 · 0 评论 -
Spark streaming写入delta数据湖问题
检查发现问题出现在merge写文件时间过长,一个batch本来应该是控制在1min。但项目上线到生产环境,检查spark streaming的job,发现数据在merge写入到数据湖时,往往超过1小时。继续排查,发现是一张表往往出现几百个小文件,影响数据写性能,故每天进行小文件合并操作。原创 2024-02-02 08:00:00 · 377 阅读 · 0 评论