- 博客(2)
- 资源 (21)
- 收藏
- 关注
原创 hive UDF
HIVE允许用户使用UDF(user defined function)对数据进行处理。用户可以使用‘show functions’ 查看function list,可以使用'describe function function-name'查看函数说明。hive> show functions;OK!!=......Time taken: 0.275 secondshive>
2014-01-21 11:52:43 51179 3
原创 Sqoop:容错
对于一个传输工具/平台,传输任务失败不可怕,可怕的地方在于“脏数据”如何处理,3种思路:1. 临时表:使用临时表缓存数据,然后在一个transaction中将临时表的数据move到目的表2. 自定义回滚:通过用户自定义的语句/方法,在任务失败后,执行清数据操作3. 传输任务的幂等性:如果一个任务失败了,产生了脏数据,解决问题后,再跑一次任务,能够最终正确,例如hive写入使用INSERT OVERWRITE,
2014-01-03 19:16:48 15649 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人