HDFS
tianbwin2995
这个作者很懒,什么都没留下…
展开
-
【2-5】RPC——不同进程之间的方法调用
学完了Java接口后,本节学习RPC(remote procedure call)远程过程调用协议。就是——不同进程直接的方法调用CRM暴露了一个接口【地址】,我一访问可以生成一个xml,得到一个类。我生成类之后我可以调用它里面的方法。左边里有一个代理对象,代理对象里面定义了一个一调用代理对象,其实是在目标方法里面原创 2016-01-10 21:14:41 · 2128 阅读 · 0 评论 -
【2-4】用Java接口操作HDFS
我们使用shell只进行一些简单的操作,还是用Java接口比较多。因此我们要使用Java接口的方式来操作HDFS我们new一个project 叫hadoop0106,然后再创建一个文件夹(new一个folder)叫lib,把jar包导入进去在hadoop2.2.0/share/hadoop/common 里面的三个jar包 Ctrl+c在hadoop2.2.0/share/ha原创 2016-01-20 11:37:25 · 492 阅读 · 0 评论 -
【2-6】HDFS读取数据的过程
我们在centos下打开JPS,看到有几个进程,如果我们设置断点了的话,是在jps看到进程里面有RPCClient的。这说明,namenode,datanode这些都是一个类!在eclipse里面打开Ctrl+shift+T 可以查找类找到namenode之后,我们开始关联源码,在这里,我们先去搜索下载一个hadoop的源码【Java的源码之前说过了,在jdk里面有】搜索hadoo原创 2016-01-22 17:43:21 · 559 阅读 · 0 评论 -
【2-2】HDFS的架构,元数据,客户端的上传和读取
HDFS的架构(HDFS architecture)Namenode:负责管理DataNode:存储数据Secondary NameNode:一个Namenode的秘书当一个客户端client想读取数据时:首先跟namenode打交道,获取一些“元数据”Metadata。然后namenode要查询它的元数据信息——元数据信息保存在【内存里?掉电就丢失了】内存一份原创 2016-01-07 09:28:36 · 650 阅读 · 0 评论 -
【2-3】HDFS之DataNode
Datanode:提供真实文件数据的存储服务HDFS默认的block大小是128MQ:如果我是130M的文件,我该用几块?A:2块,不过第二块只放了2M,有点太浪费了。有什么好方法?做个试验 先删去hadoop之前所有的东西,再上传一个130M的jdk,由于,Linux文件系统之上有一个HDFS,HDFS上的数据还要保存在Linux系统上【比如哪个磁盘上】i原创 2016-01-07 14:03:38 · 345 阅读 · 0 评论 -
【3-1】MapReduce原理
MapReduce是分布式计算编程模型。【就是每个人的业务都可用】。只要我实现具体的业务逻辑即可,底层的细节不需要我关心。Google在2004年提出了这种模型,非常简单即可实现分布式计算模型。面试题:我有一个1G的文件,有许多数,用空格分隔,机器的内存只有1M 我怎样将这样的数据计算出来?方法:我把文件切分成1024分,每份1M,每次先把1M放在内存里,然后把计算结果放在磁盘,然原创 2016-01-25 09:23:09 · 420 阅读 · 0 评论