大数据开发-生产中遇到的10个致命问题

最新推荐文章于 2024-05-03 06:41:26 发布

Hoult-吴邪

最新推荐文章于 2024-05-03 06:41:26 发布

阅读量1.3k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hu_lichao/article/details/113101193

版权

本文总结了大数据开发中遇到的十个致命问题，包括Hive和Spark的不兼容、数据覆盖与重复、MSCK REPAIR TABLE的问题、并发写入一致性等，并提供了相应的解决方案。这些问题在生产环境中可能导致数据不一致，对数据质量造成严重影响。

摘要由CSDN通过智能技术生成

生产环境版本 Hive: 1.2.1, Spark: 2.3.2

1.insert overwrite directory 不会覆盖数据

注意，生成结果是目录，生成目录里面的不同文件名不会被覆盖，因此很容易出现数据double或者没有覆盖到数据的问题，比如数据分片原始结果如下：

/mytable/000000_0
/mytable/000000_1
/mytable/000000_2
/mytable/000000_3 
## 新生成的数据只含有 000000_0分片，那么1 2 3分片并不会被删掉

解决方式：使用目录上面建立外表insertoverwrite, 如果这个目录是导入其他系统的目录文件，可能更致命。注意建立外表时候，如果是分区表，删除掉分区，然后insert overwrite也会导致数据重复，测试版本2.3.2

//a文件数据内容
//2  10
//2  10
//2  10
//创建管理表
create table t2(id int) partitioned by (dt string);
load data local inpath '/xxx/a'

// 创建外分区表
create external table t1(id int) partitioned by (dt string);
// overwrite分区10
insert overwrite table t1 partition(dt='10') select 1 from t2 where dt=10;
//删除分区10
ALTER TABLE t1 DROP PARTITION(dt='10');
// overwrite 10这个分区
insert overwrite table t1 partition(dt='10') select 2 from t2 where dt=10;

结果显示6条数据，显然是异常的，在hive中这个结果是正常的（ps,最后发现是由于组内小伙伴自己调试原因，改了参数，其实默认参数是没问题的,就是true）

解决方式：

set spark.sql.hive.conver

最低0.47元/天解锁文章

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Hoult-吴邪 CSDN认证博客专家 CSDN认证企业博客

码龄7年

92: 原创

7万+: 周排名

174万+: 总排名

9万+: 访问

: 等级

1494: 积分

38: 粉丝

50: 获赞

37: 评论

237: 收藏

私信

关注

热门文章

分类专栏

最新评论

大数据开发-Docker-使用Docker10分钟快速搭建大数据环境,Hadoop、Hive、Spark、Hue、Kafka、ElasticSearch.....
Hoult-吴邪: 可以试试从github自己打包镜像，里面有dockerfile
大数据开发-Docker-使用Docker10分钟快速搭建大数据环境,Hadoop、Hive、Spark、Hue、Kafka、ElasticSearch.....
SmartManWind: 下载速度好慢，可以搞个阿里云的镜像
大数据开发-Nginx&Kafka-Nginx做页面采集, Kafka收集到对应Topic
阿木木_: 怎么将不同模块的请求分发到不同的topic呢？？？根据请求参数？？？
大数据开发-Flink-1.13新特性
微毂: 为啥使用1.13的水印报错了 [code=plain] val loginEventStream: DataStream[LoginEvent] = inputStream .map(data => { val arr = data.split(",") LoginEvent(arr(0).toLong, arr(1), arr(2), arr(3).toLong) }) .assignTimestampsAndWatermarks( WatermarkStrategy .forBoundedOutOfOrderness[LoginEvent](Duration.ofMillis(20)) .withTimestampAssigner(new SerializableTimestampAssigner[LoginEvent] { override def extractTimestamp(element:LoginEvent, recordTimestamp: Long): Long = element.timestamp*1000L }) ) [/code] Error:(23, 48) Static methods in interface require -target:jvm-1.8 .forBoundedOutOfOrderness[LoginEvent](Duration.ofMillis(20))
大数据开发-Spark-闭包的理解
、静寒°: 说得不清不楚，spark闭包与scala闭包本质有什么区别呢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。