hadoop
文章平均质量分 69
SiLa_Sheng
Management by Objectives
展开
-
hadoop 中 hdfs 的 RPC 机制 (简单的分析源码)
RPC 即为远程过程调用(Romote Process Call),即远程调用其他虚拟机中的运行的Java Object,RPC是一个C/S模式,使用的时候包括 服务器代码和客户端代码,RPC就是建立在此基础上的。现在就用一个简单的程序带大家对HDFS的运行机制做一个分析。 MyClient部分: import java.net.InetSocketAddress; import org.原创 2013-11-06 23:14:46 · 1047 阅读 · 0 评论 -
针对 hadoop 中MapReduce 测试过程中的内存溢出的问题
上面这个错误并不是程序自身的逻辑有问题,而是产生了大量内存而导致的,那么下面我就来解决一下这个问题 如果你用的工具是 MyEclipse (嘿嘿,因为习惯了它) 当然上面的 512 不是固定的,依据个人需要 当然最后要是控制台有这样的输出,就一切OK啦原创 2013-11-07 23:45:29 · 1686 阅读 · 0 评论 -
hadoop 的 框架 ZooKeeper 入门
首先先了解一下 ZooKeeper 是什么? Zookeeper 是 Google 的 Chubby一个开源的实现,是 Hadoop 的分布式协调服务;它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等 那么ZooKeeper 又有什么作用呢?用一张图片来做一个简单的了解 那么hadoop 又为什么要用 ZooKeeper 来处理事件呢? ZooK原创 2013-11-10 00:17:04 · 622 阅读 · 0 评论 -
虚拟机中 hadoop 的集群的搭建 以及 中途可能出现的问题
搭建集群的提前准备: 机器名 机器IP 用 途 描 述 hadoop1 192.168.242.130 namenode/secondaryN原创 2013-11-09 23:48:51 · 625 阅读 · 0 评论 -
ZooKeeper典型应用场景一览
数据发布与订阅(配置中心) 发布与订阅模型,即所谓的配置中心,顾名思义就是发布者将数据发布到ZK节点上,供订阅者动态获取转载 2013-11-12 21:38:05 · 641 阅读 · 0 评论 -
投资者看好hadoop的六大理由
1)投资者看好Hadoop 目前,投资者十分看好Hadoop,并开始纷纷投资相关技术。从分布式层面上来说,Hadoop开源软件整体方案供应商Cloudera已获得7600万美元投资,分布式架构新成员MapR和Hortonworks分别融资2900万美元和5000万美元;而从栈的层面上来看,Hadoop海量数据分析平台Datameer、 Karmasphere和Hadapt已分别获得了1000万美转载 2014-03-20 22:41:50 · 505 阅读 · 0 评论 -
hive调优
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。(当然我们可以在写hive语句的时候,可以看看hive是怎么把sql语句编程mapreduce的) 理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所转载 2014-05-22 17:27:16 · 552 阅读 · 0 评论 -
面试笔试问题:大数据量,海量数据 处理方法总结
Hashing 适用范围:快速查找,删除的基本数据结构,通常需要总数据量可以放入内存 基本原理及要点: hash函数选择,针对字符串,整数,排列,具体相应的hash方法。 碰撞处理,一种是open hashing,也称为拉链法;另一种就是closed hashing,也称开地址法,opened addressing。 数 组的特点是:寻址容易,插入和删除困难;而链表的特点是:寻址困难,插入转载 2014-05-22 17:25:42 · 1405 阅读 · 0 评论