技术
Lyle-liang
大数据,互联网金融交易
展开
-
Greenplum利用gpload,gpfist实现数据入库
转载:http://blog.csdn.net/stoneliul/article/details/81267001.python版本要求2.4.4以上[python] view plain copy[root@test install]# python Python 2.6.2 (r262:71600, May 14转载 2016-07-27 16:03:32 · 5602 阅读 · 0 评论 -
IT技能图谱
github:https://github.com/TeamStuQ/skill-map原创 2018-03-22 15:11:59 · 662 阅读 · 0 评论 -
Hive中小表与大表关联(join)的性能分析
经常看到一些Hive优化的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录再去内存中检测,最终完成关联查询。这样的原因看似合理,但是仔细推敲,又站不住脚跟。 多小的表算小表?如果所谓的小表在内存中放不下怎么办?我用2个只有几条记录的表做关联查询,这应该算是小表了,在查看reduce的执行日志...转载 2018-04-03 17:13:51 · 169 阅读 · 0 评论 -
Descriptor location does not exist: hdfs://<path>.metadata
Sqoop 1.4.6 的bug,文章发表时为open状态,fix version未定:https://issues.apache.org/jira/browse/SQOOP-3151原创 2018-04-26 18:20:10 · 1407 阅读 · 0 评论