- 博客(10)
- 资源 (6)
- 收藏
- 关注
转载 MapReduce面试题参考答案(二)
原文作者:董西成 点击阅读原文 鉴于大量读者索要MapReduce相关面试题(二)的答案,今天决定将这几道题的参考答案发给大家,这些答案是我个人按照自己的理解写的,有些题目的答案可能并不完善,欢迎大家补充。题目1: MapReduce中排序发生在哪几个阶段?这些排序是否可以避免,为什么?答:一个MapReduce作业由Map阶段和Reduce阶段两部分组成,这两个阶段会对数据排序,...
2018-09-29 17:34:15 2597
转载 MapReduce面试题(二)
原文作者:董西成 点击阅读原文 今天再给大家介绍几道MapReduce相关的面试题,这些题目难度中上等,大家根据自己的需要参考一下。鉴于大家对上次发的MapReduce面试题反应冷淡,这次的题目不再给出参考答案,直到主动回复想要答案的人超过50人。题目1: MapReduce中排序发生在哪几个阶段?这些排序是否可以避免,为什么?题目2:编写MapReduce作业时,如何做到在Re...
2018-09-29 17:31:14 948 1
转载 MapReduce面试题参考答案(一)
原文作者:董西成 点击阅读原文 昨天给大家发了几道MapReduce面试题,今天将答案分享给大家。需要注意的是,这是面试题,不是笔试题,面试题重在表达和交流,所以答得好坏取决于你当时的表现,今天仅是简单地将答案关键点发个大家,如果你遇到了这些面试题,需要自行扩展和丰富这几个关键点。题目1:如果非要写mapreduce程序完成,则需要转化为两个maprecuce作业,第一个是wordc...
2018-09-29 17:22:14 5742
转载 MapReduce面试题(一)
原文作者:董西成 点击阅读原文 今天给大家介绍几道MapReduce相关的面试题,这些题目是我或者别人在面试过程中遇到的,看看你能回答出几道,明天将答案发放给大家。题目1:现有100TB的用户查询词(从搜索引擎日志中提取出来的),如何用MapReduce计算出现次数最多的K个查询词?如何对你设计的算法进行优化?考虑的优化点有:如果一个查询词出现次数非常多,产生的负载倾斜问题会不会导致...
2018-09-29 17:20:09 1950
转载 回顾·网易HBase实践
本文根据网易杭州研究院技术专家范欣欣在中国HBase技术社区第3届 MeetUp 杭州站分享的《网易HBase实践》编辑整理而成。今天主要从四个方面和大家分享HBase,HBase是整个Hadoop里面非常重要的组件,首先讲一下HBase在大数据领域的定位,第二个方面就是网易在HBase方面都有哪些应用场景,接下来讲一下HBase中经常会出现的RIT问题,以及用HBCK解决问题的套路。最后...
2018-09-27 15:39:20 656
转载 互联网公司大数据面试题
互联网公司大数据面试题参考指南以下面试题都是群里小伙伴提供的,现场真题(包含校招题)1.网易大数据面试题说说项目 Spark哪部分用得好,如何调优 Java哪部分了解比较好 聊聊并发,并发实现方法,volatile关键字说说 HashMap的底层原理 为什么要重写hashcode和equals 说说jvm 各个垃圾收集器运用在什么情形 jvm调优 说说io 为什么考虑转...
2018-09-24 23:57:31 459
转载 HBase原理之HBase Region合并解析
1.概述HBase表的基本单位是Region,日常调用HBase API操作一个表时,交互的数据也会以Region的形式进行呈现。前面介绍过HBase Region切分策略原理,一个表可以有若干个Region,本文主要介绍Region合并的一些问题和解决方法。 2.内容在分析合并Region之前,我们先来了解一下Region的体系结构,如下图所示:从图中可知,能够总结以下知...
2018-09-24 23:54:26 2659
原创 Windows平台安装配置Hadoop2.5.2
Windows平台安装配置Hadoop-2.5.2准备: 1. 电脑环境: Win10 安装jdk 配环境变量 2. Hadoop-2.5.2.tar.gz 3. hadooponwindows-master.zip一.解压安装hadoop-2.5.2 配置hadoop环境变量二.修改hadoop配置文件修改core-site.xml<configuration>...
2018-07-04 19:54:09 432
原创 linux平台编译eclipse的hadoop-2.5.2plugin插件
linux平台编译eclipse的hadoop-2.5.2plugin插件一.准备材料:1. 所需机器:Win+VMware+CentOS6.8(64位)+jdk1.7+Hadoop2.5.22. eclipse-jee-mars-2-linux-gtk-x86_64.tar.gz3. apache-ant-1.9.9-bin.tar.gz4. hadoop2x-eclipse-plugi...
2018-07-04 19:49:41 729
原创 分布式配置zookeeper和hbase
首先jdk+免密登录+hadoop我的用户名字是zzti, jdk-1.7, centOS6.8, hadoop2.5.21. 所有机器都上传zookeeper,hbase或上传一台然后scp Zookeeper mini2:/zzti2. 进入 zookeeper/confcp zoo_sample.cfg zoo.cfgvi zoo.cfg加入以下内容: d...
2018-07-04 19:45:39 170
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人