hdfs
hdfs
赶路人儿
一个十年以上编程人员,擅长使用java、python、C++等语言,具有广告投放、个性化推荐引擎等超大规模系统开发经验。
展开
-
使用eclipse查看hadoop源码
1、下载hadoop,在windows上使用winrar解压开。这里我用的是hadoop1.2.1,下载地址:http://ftp.yz.yamagata-u.ac.jp/pub/network/apache/hadoop/common/注:在linux上安装配置hadoop,只需要把下载的hadoop1.2.1.tar.zp解压后,修改conf下的hadoop-env.sh、core-sit原创 2015-04-11 17:03:14 · 1229 阅读 · 0 评论 -
NameNode格式化失败问题的解决
NameNode格式化失败,查看日志,报如下错:15/04/08 10:05:43 INFO namenode.NameNode: registered UNIX signal handlers for [TERM, HUP, INT]15/04/08 10:05:43 INFO namenode.NameNode: createNameNode [-format]15/04/08 10:05转载 2016-11-05 18:19:33 · 3664 阅读 · 0 评论 -
hadoop 2.2.0的datanode中存储block的多个文件夹的负载均衡问题
hadoop的分布式文件系统HDFS的存储方式是,将数据分成block,分布式存储在整个hadoop集群的datanode中,每个block默认的大小是64M,这些block文件的具体存储位置是在hadoop的配置文件中定义的,进入/home/hadoop2/hadoop2/etc/hadoop的配置文件目录(hadoop版本为社区版2.2.0):vi /home/hadoop2/hadoop转载 2015-12-31 11:40:23 · 1631 阅读 · 0 评论 -
Hadoop气象数据
新版气象数据下载地址:ftp://ftp3.ncdc.noaa.gov/pub/data/noaa/isd-lite/ftp://ftp.ncdc.noaa.gov/pub/data/noaa/isd-lite/数据格式:2014 01 01 00 33 -23 -9999 0 -9999 -9999 -9999 02014 01 0原创 2015-04-17 13:30:44 · 1473 阅读 · 0 评论 -
eclipse中连接不上hdfs,显示refuse connection 解决方法
eclipse中连接不上hdfs,显示refuse connection。解决:a.取消hdfs的安全模式 hadoop dfsadmin -safemode leave b. 在eclipse的hdfs 对话框“edit hadoop location” 中,Mapreduce/mast的ip和端口要和linux上mapred-site.xml的一致;Dfs原创 2015-04-09 23:06:33 · 4597 阅读 · 1 评论 -
hadoop端口号列表
常用的端口配置HDFS端口参数描述默认配置文件例子值fs.default.namenamenode RPC交互端口8020core-site.xmlhdfs://master:8020/dfs.http.address NameNode web管理端口5007转载 2015-04-09 22:41:29 · 1375 阅读 · 0 评论 -
重新格式化HDFS的方法
由于多次格式化hdfs,可能会导致namenode无法启动,所以如果要重新格式化时,需要按如下步骤进行:1、查看hdfs-ste.xml: dfs.name.dir /home/hadoop/hdfs/name namenode上存储hdfs名字空间元数据 dfs.data.dir /home/hadoop/hdsf/data转载 2015-04-09 11:22:16 · 2370 阅读 · 0 评论 -
如何恢复hadoop中被删除的文件
hadoop的hdfs中被删除文件的恢复原理和回收站原理是一样的,就是在删除hdfs文件时,被删除的文件被移动到了hdfs的.Trash文件夹中,恢复时只需将该文件夹中文件拿出即可。具体操作如下:1 设置.Trash文件夹 如果需要恢复hdfs中文件,就需要设置.Trash,hadoop的.Trash默认是关闭的。具体设置如下: fs转载 2015-04-24 17:31:06 · 974 阅读 · 0 评论 -
HDFS追本溯源:HDFS操作的逻辑流程与源码解析
本文主要介绍5个典型的HDFS流程,这些流程充分体现了HDFS实体间IPC接口和stream接口之间的配合。1. Client和NN Client到NN有大量的元数据操作,比如修改文件名,在给定目录下创建一个子目录,这些操作一般只涉及Client和NN的交互,通过IPC调用ClientProtocol进行。创建子目录的逻辑流程如下图:从图中可见,创转载 2015-04-24 11:44:59 · 1146 阅读 · 0 评论 -
hadoop 文件划分,map执行浅析
在执行一个Job的时候,Hadoop会将输入数据划分成N个Split,然后启动相应的N个Map程序来分别处理它们。数据如何划分?Split如何调度(如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上)?划分后的数据又如何读取?这就是本文所要讨论的问题。先从一张经典的MapReduce工作流程图出发:1、运行mapred程序;2、本次运行将生成一个J转载 2015-04-08 22:16:37 · 1724 阅读 · 2 评论 -
java操作hdfs
在eclipse中创建一个java工程,然后导入hadoop中的7个jar包(如图);如果为了方便调试hadoop源码,可以关联到hadoop的源码。引入hadoop安装包中的7个jar关联hadoop源码:1、使用URL的方式读取hdfs中的数据,这种方式和使用浏览器查看hdfs中的数据一样;缺点是只能读取,不能上传、删除等:public st原创 2015-04-14 16:17:30 · 1044 阅读 · 0 评论 -
HADOOP-RPC机制
一、RPC基本概念:1、RPC,即Remote Procdure Call,中文名:远程过程调用; (1)它允许一台计算机程序远程调用另外一台计算机的子程序,而不用去关心底层的网络通信细节,对我们来说是透明的。因此,它经常用于分布式网络通信中。 (2)Hadoop的进程间交互都是通过RPC来进行的,比如Namenode与Datanode直接,Jobtracker与Tasktr原创 2015-04-14 18:14:09 · 1065 阅读 · 0 评论 -
HDFS读书笔记-如何让NameNode高可用(三)
高可用名字听着挺虚,目的很简单,让应用或服务在任何时候都可以提供服务。 NameNode最关键的问题在于有单点的风险,一旦NameName挂掉,整个HDFS都无法提供服务。大脑坏掉了,身体也是无法行动的。 对于高可用的方案,业界一般通常使用两种类型的手段。 1:主备(Master-Slave) 2:集群(Cluster)转载 2015-04-12 17:35:03 · 1670 阅读 · 0 评论 -
HDFS读书笔记-了解NameNode(二)
简单来讲,NameNode就是HDFS的大脑,任何客户端或者DataNode的数据迁移、目录操作都是由NameNode来完成的。 再了解了NameNode会干什么事情之后,最好深入的办法就是来看NameNode有哪些重要的数据结构,每个数据结构都干什么事情。 我们提到NameNode主要是维护文件在哪里这个映射关系。故而主要包含的内容是:转载 2015-04-12 17:30:15 · 781 阅读 · 0 评论 -
上传文件到HDFS方式
hadoop计算需要在hdfs文件系统上进行,因此每次计算之前必须把需要用到的文件(我们称为原始文件)都上传到hdfs上。文件上传到hdfs上通常有三种方法:1、 hadoop自带的dfs服务,put;2、 hadoop的API,Writer对象可以实现这一功能;3、 调用OTL可执行程序,数据从数据库直接进入hadoop 将1、2方案进行对比,如下:转载 2015-04-12 17:40:58 · 7443 阅读 · 0 评论 -
HDFS读书笔记-总体介绍(一)
一直以来对hadoop相关系列的学习都是较为零散的,不成体系。没有经过自己总结和沉淀的资料也很难长久的消化和在工作中实际运用。故而也希望通过这样系列的方式对所学习,所了解的资料进行总结。HDFS(Hadoop Distributed File System)顾名思义,是hadoop的分布式文件系统。HDFS是hadoop的一个子项目。Hadoop的名字在这里也提一下,是作者小孩很喜转载 2015-04-12 17:14:23 · 738 阅读 · 0 评论 -
HDFS的基本shell操作
(1)分布式文件系统随着数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 。它是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。而它最主要的特性就是通透性。让实际上是通过网络来访问文件的动作,由程序与用户看来,就转载 2015-04-11 23:08:34 · 1067 阅读 · 0 评论