Hive数仓数据质量,Sqoop常见问题及GC回收机制

一、如何保证数据仓库数据的质量

1.从技术层面上:构建一套高效、健壮的ETL程序去保证数据清洗、装换后数据的正确性和一致性;
2.从流程层面上:整个ETL是多个任务的,按步骤顺序执行的一个过程,后置任务依赖前置任务,定期执行,整个流程需要自动化,并且那个环节出现了问题,给予预警,通知相关维护人员及时处理;
3.从管理层面上:数据仓库构建在公司各个业务系统之上,它是一面镜子,很多时候它能反映出业务系统的问题,所以需要管理层的支持和约束。

二、Sqoop常见问题

1.事务处理:由于线程的并发性,一个导入操作可能并不是原子性的。如果tasks失败了(由于网络问题或者其它的问题), 这些tasks会尝试从它们开始导入数据的地方重新开始,会插入重复的记录。
这次写数据的时候,Sqoop不 提防这种潜在的问题。Sqoop提供的一个解决办法就是使用中间表,参数为: --staging-table --clear-staging-table;
2.字段及名称问题:sqoop 从 mysql 导入 hive 的字段名称问题 hive 中有些关键字限制,因此有些字段名称在 mysql 中可用,但是到了 hive 就不 行。部分不能在在hive中使用的字段名称 order,sort,
reduce,cast,directoy;
3.参数处理

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值