大数据
快乐真真
这个作者很懒,什么都没留下…
展开
-
大数据工程师面试题(一)
1. 选择题1.1. 下面哪个程序负责 HDFS 数据存储。c)Datanode 答案 C datanode1.2. HDfS 中的 block 默认保存几份?a)3 份 答案 A 默认 3 份1.3. 下列哪个程序通常与 NameNode 在一个节点启动?d)Jobtracker答案 D1.4. HDFS 默认 Block Sizec)12转载 2017-02-19 13:46:40 · 14334 阅读 · 5 评论 -
大数据工程师面试题(二)
2.7. 用mapreduce来实现下面需求?现在有10个文件夹,每个文件夹都有1000000个url.现在让你找出top1000000url。方法一:运用2个job,第一个job直接用filesystem读取10个文件夹作为map输入,url做key,reduce计算url的sum,下一个job map用url作key,运用sum作二次排序,reduce中取top1000000转载 2017-02-19 14:17:12 · 5139 阅读 · 0 评论 -
大数据工程师面试题(三)
2.13. 简述hadoop的调度器FIFO schedular:默认,先进先出的原则Capacity schedular:计算能力调度器,选择占用最小、优先级高的先执行,依此类推Fair schedular:公平调度,所有的job具有相同的资源。2.14. 列出你开发mapreduce的语言java2.15. 书写程序wordcountmapper:Strin转载 2017-02-19 15:39:42 · 7639 阅读 · 0 评论 -
大数据工程师面试题(四)
2.23. 我们开发job时,是否可以去掉reduce阶段。可以。设置reduce数为0 即可。2.24. datanode在什么情况下不会备份datanode在强制关闭或者非正常断电不会备份。2.25. combiner出现在那个过程出现在map阶段的map方法后等。2.26. hdfs的体系结构hdfs有namenode、secondraynamenode、data转载 2017-02-19 16:29:53 · 8097 阅读 · 4 评论 -
hive外部表
我们在创建表的时候可以指定external关键字创建外部表,外部表对应的文件存储在location指定的目录下,向该目录添加新文件的同时,该表也会读取到该文件(当然文件格式必须跟表定义的一致),删除外部表的同时并不会删除location指定目录下的文件.1.查看hdfs系统目录/user/hadoop1/myfile下文件[hadoop1@node1]$ hadoop fs -ls转载 2017-03-04 15:31:07 · 2744 阅读 · 2 评论 -
通过hive访问hbase中的表
在hbase中创建表后,我们只能在hbase shell中使用scan查询数据,这对于熟悉SQL的使用者不怎么习惯,不过我们可以在hive中创建外部表来访问hbase表中的数据,例子如下:1.这里hbase中的表oss_user_label_action_data已经存在=> #:0xd5a1b0>hbase(main):067:0> scan 'oss_user_label_转载 2017-03-04 15:32:48 · 2987 阅读 · 0 评论 -
大数据工程师面试题(五)
2)HashMap和HashTable,ArrayList和Vector,ArrayList和LinkedList的区别1 HashMap不是线程安全的hashmap是一个接口 是map接口的子接口,是将键映射到值的对象,其中键和值都是对象,并且不能包含重复键,但可以包含重复值。HashMap允许null key和null value,而hashtable不允许。2 HashTa转载 2017-02-26 08:46:01 · 2772 阅读 · 0 评论