2017年01月_唐予之_

12月 11月 09月 08月 07月 04月 03月 02月 01月

转载 Hive SQL的编译过程

Hive SQL的编译过程木叶丸 ·2014-02-12 17:30Hive是基于Hadoop的一个数据仓库系统，在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建，每天执行近万次的Hive ETL计算流程，负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中，我们遇到了一些大大小小的问题。通过向社区的咨询

2017-01-21 14:21:06 742

原创最近经历的一些大数据（Spark/Hadoop）面试题

公司A：1.讲讲你做的过的项目。项目里有哪些难点重点注意点呢？2.讲讲多线程吧，要是你，你怎么实现一个线程池呢？3.讲一下Mapreduce或者hdfs的原理和机制。map读取数据分片。4.shuffle 是什么？怎么调优？5.项目用什么语言写？ Scala？ Scala的特点？和Java的区别？6.理论基础怎么样，比如数据结构，里面的

2017-01-18 11:12:36 45395 20

原创 Neither spark.yarn.jars nor spark.yarn.archive is set

每次提交spark任务到yarn的时候，总会出现uploading resource（打包spark jars并上传）到hdfs上。恶劣情况下，会在这里卡住很久。17/01/13 17:21:47 INFO Client: Preparing resources for our AM container17/01/13 17:21:47 WARN Client: Neither spark.yar

2017-01-13 17:30:40 9696 3

如何做好一个ppt演讲

2013-06-14

空空如也

TA创建的收藏夹 TA关注的收藏夹