自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

司小幽

知行合一,学而思

  • 博客(6)
  • 资源 (15)
  • 收藏
  • 关注

原创 大数据工程师(开发)面试系列(7)

MapReduce1. 不指定语言,写一个WordCount的MapReduce我:最近刚学了scala,并且就有scala版本的WordCount,刚好学以致用了一下: 补:至于java版本,虾皮博主的一篇文章讲解的非常细致: Hadoop集群(第6期)_WordCount运行详解2. 上述写的程序中.map((_,1))的输出结果是什么我:通过flatMap将其扁平化,而.map((_,1)

2017-03-19 22:08:17 11039 4

原创 大数据工程师(开发)面试系列(6)

由于其中一次谈到的内容比较少,所以本文是两次合并成一篇写的。1. Kylin如何优化我:①经常需要group By查询的维度顺序在先;②基数近1:1的字段选择joint维度;③lookup表尽量避免基数大,更多的可以查看博客 补:《Apache Kylin cube优化指南》2. Hive没有long类型你是怎么处理的?我:之前的项目,做的是Hive关联HBase外表,对于细节上的,比如类型转换

2017-03-19 19:51:09 1500

原创 大数据工程师(开发)面试系列(5)

1. Java的第三方模块你用过哪些?我:也没有刻意去记,所以也没说出来。 补:技术干货:十个非常有用的第三方Java开源库 细数一下,上述所列十个里,大致用过1/2。2. Python的第三方模块你用过哪些?我:爬虫所用urllib,urllib2 补:模块和包.那些让你相见恨晚的PYTHON第三方好用的模块儿和包?3. 你用你的程序调度Kylin以及承接数据失败怎么办?我:在调度之前有落

2017-03-19 17:26:06 1447

原创 大数据工程师(开发)面试系列(4)

1.谈一谈你之前是如何围绕Kylin框架进行工作的?我:其实在我的理解中,Kylin它首先是一个OLAP分析引擎,它是如此的轻量、因非侵入式又是如此的友好,所以更愿意将之前的工作定义为是拿Kylin这个神器去为现有的框架添加OLAP的功能,而不是去围着它转。 Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最

2017-03-19 16:02:17 2717

原创 大数据工程师(开发)面试系列(3)

1. 你觉得大数据处理技术分为几类?我:大致分为3类,Hadoop为代表的批处理;Impala,Hbase为代表的基于历史数据的交互式处理;Storm,Spark,Flink为代表的流式处理。2. Linux系统命令你熟悉的有哪些?我:cat,tree….etc3. 说说你眼里的数据开发究竟是一种什么样的岗位?我:当时刚好看完ETL和Storm系列的视频,所以就学习的这两系列视频对数据开发这个职能的

2017-03-19 14:49:10 1925

原创 大数据工程师(ETL)面试系列(1)

1. 你觉得Spark和Hadoop的区别是什么,请简要说一说?我:Hadoop适合离线分析,是批处理;Spark适合实时分析,是近实时流,微批处理。2. 你觉得Python和Java在使用起来,有什么区别?我:其实自己在平时使用的时候,并没有过度割裂开这两种,因为毕竟自己是结果导向所以无论Python的缩进格式还是Java的要加逗号,最后可以实现我的需求就可以了。 补:如今,再来审视这个问题,会

2017-03-19 14:19:12 24637 1

【Plugin-IDE-Eclipse】RED-Feature-0.8.11.201901311338.zip

支持eclipse oxygen4.7.0及更新版本的robot framework IDE插件

2021-03-23

【Practical Tool】FileGeeCNP.exe(10.4.5)

FileGee免费版 适用于个人用户(免费使用)。 支持本机存储器和多种网盘,间隔实时定时多种自动方式; 最多同时创建8个任务,手机等移动设备的同步备份; 多种文件备份与同步模式,备份文件的同时可对文件加密。

2021-03-03

【Practical Tool】JsonView.rar

一个json格式化查看工具。

2021-02-26

【Operate System-Linux】Tmux-1.8.tar.gz

Tmux 是一个与 GNU Screen 类似的程序,可作为后者的替代品使用。Tmux 采用 BSD 许可授权。

2017-01-07

【DT-BigData】Zookeeper-3.4.5.gz

Zookeeper-3.4.5.gz

2016-08-20

【DT-BigData】Sqoop-1.4.6.gz

Sqoop-1.4.6.gz

2016-08-20

【OJDBC-DT-BigData-SQL】Sqoop连接Oracle必备ojdbc6

Sqoop连接Oracle必备ojdbc6

2016-08-20

【JDBC-DT-DB-SQL-MySQL】MySQL-Connector-Java-5.1.39.tar

MySQL-Connector-Java-5.1.39.tar

2016-08-20

【DT-BigData】Spark-1.6.0.tgz

Spark-1.6.0.tgz

2016-08-20

【Programming Language】Scala-2.9.3

Scala-2.9.3.tgz

2016-08-20

【MQ-DT-BigData】Kafka-2.11-0.10.0.0

Kafka_2.11-0.10.0.0下载

2016-08-20

【JDBC-DT-DB-SQL】mysql-connector-java-5.1.7

MySQL-5.1.7连接Java的JDBC驱动。

2016-08-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除