- 博客(3)
- 资源 (1)
- 收藏
- 关注
转载 Hive SQL的编译过程
Hive SQL的编译过程木叶丸 ·2014-02-12 17:30Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的咨询
2017-01-21 14:21:06 742
原创 最近经历的一些大数据(Spark/Hadoop)面试题
公司A:1.讲讲你做的过的项目。 项目里有哪些 难点重点注意点呢?2.讲讲多线程吧, 要是你,你怎么实现一个线程池呢?3.讲一下Mapreduce或者hdfs的原理和机制。map读取数据分片。4.shuffle 是什么? 怎么调优?5.项目用什么语言写? Scala? Scala的特点? 和Java的区别?6.理论基础怎么样,比如数据结构,里面的
2017-01-18 11:12:36 45395 20
原创 Neither spark.yarn.jars nor spark.yarn.archive is set
每次提交spark任务到yarn的时候,总会出现uploading resource(打包spark jars并上传)到hdfs上。恶劣情况下,会在这里卡住很久。17/01/13 17:21:47 INFO Client: Preparing resources for our AM container17/01/13 17:21:47 WARN Client: Neither spark.yar
2017-01-13 17:30:40 9696 3
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人