- 博客(6)
- 资源 (15)
- 收藏
- 关注
原创 大数据工程师(开发)面试系列(7)
MapReduce1. 不指定语言,写一个WordCount的MapReduce我:最近刚学了scala,并且就有scala版本的WordCount,刚好学以致用了一下: 补:至于java版本,虾皮博主的一篇文章讲解的非常细致: Hadoop集群(第6期)_WordCount运行详解2. 上述写的程序中.map((_,1))的输出结果是什么我:通过flatMap将其扁平化,而.map((_,1)
2017-03-19 22:08:17 11099 4
原创 大数据工程师(开发)面试系列(6)
由于其中一次谈到的内容比较少,所以本文是两次合并成一篇写的。1. Kylin如何优化我:①经常需要group By查询的维度顺序在先;②基数近1:1的字段选择joint维度;③lookup表尽量避免基数大,更多的可以查看博客 补:《Apache Kylin cube优化指南》2. Hive没有long类型你是怎么处理的?我:之前的项目,做的是Hive关联HBase外表,对于细节上的,比如类型转换
2017-03-19 19:51:09 1526
原创 大数据工程师(开发)面试系列(5)
1. Java的第三方模块你用过哪些?我:也没有刻意去记,所以也没说出来。 补:技术干货:十个非常有用的第三方Java开源库 细数一下,上述所列十个里,大致用过1/2。2. Python的第三方模块你用过哪些?我:爬虫所用urllib,urllib2 补:模块和包.那些让你相见恨晚的PYTHON第三方好用的模块儿和包?3. 你用你的程序调度Kylin以及承接数据失败怎么办?我:在调度之前有落
2017-03-19 17:26:06 1476
原创 大数据工程师(开发)面试系列(4)
1.谈一谈你之前是如何围绕Kylin框架进行工作的?我:其实在我的理解中,Kylin它首先是一个OLAP分析引擎,它是如此的轻量、因非侵入式又是如此的友好,所以更愿意将之前的工作定义为是拿Kylin这个神器去为现有的框架添加OLAP的功能,而不是去围着它转。 Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最
2017-03-19 16:02:17 2748
原创 大数据工程师(开发)面试系列(3)
1. 你觉得大数据处理技术分为几类?我:大致分为3类,Hadoop为代表的批处理;Impala,Hbase为代表的基于历史数据的交互式处理;Storm,Spark,Flink为代表的流式处理。2. Linux系统命令你熟悉的有哪些?我:cat,tree….etc3. 说说你眼里的数据开发究竟是一种什么样的岗位?我:当时刚好看完ETL和Storm系列的视频,所以就学习的这两系列视频对数据开发这个职能的
2017-03-19 14:49:10 1953
原创 大数据工程师(ETL)面试系列(1)
1. 你觉得Spark和Hadoop的区别是什么,请简要说一说?我:Hadoop适合离线分析,是批处理;Spark适合实时分析,是近实时流,微批处理。2. 你觉得Python和Java在使用起来,有什么区别?我:其实自己在平时使用的时候,并没有过度割裂开这两种,因为毕竟自己是结果导向所以无论Python的缩进格式还是Java的要加逗号,最后可以实现我的需求就可以了。 补:如今,再来审视这个问题,会
2017-03-19 14:19:12 24771 1
【Plugin-IDE-Eclipse】RED-Feature-0.8.11.201901311338.zip
2021-03-23
【Practical Tool】FileGeeCNP.exe(10.4.5)
2021-03-03
【Operate System-Linux】Tmux-1.8.tar.gz
2017-01-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人