********HDFS
冥想者-定
缘起性空
展开
-
Hadoop FS Shell命令
FS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path 。对 HDFS文件系统,scheme是hdfs ,对本地文件系统,scheme是file 。其中scheme和 authority参数都是可选的,如果未加指定,就会使用配置中指定转载 2015-05-03 20:31:17 · 303 阅读 · 0 评论 -
Hadoop中HDFS读取文件的原理剖析
上一篇文章中简单介绍了一下Hadoop文件存储的一些逻辑与简单原理(见 http://www.linuxidc.com/Linux/2015-02/113638.htm),既然后写入,那肯定要读取分析数据咯,下面我在白话一下hdfs中文件读取的逻辑与简单原理。第一步:跟写入文件一样,首先客户端会调用DistributedFilesyStem 对象的open()方法来打开文件,这个方法要做的转载 2015-06-14 20:40:41 · 772 阅读 · 0 评论 -
Cloudera 简介
http://www.cloudera.com/content/cloudera/zh-CN/documentation/core/v5-3-x/topics/introduction.htmlhttp://www.cloudera.com/content/cloudera/zh-CN/documentation/core/v5-3-x/topics/introduction.转载 2015-07-05 20:30:25 · 634 阅读 · 0 评论 -
解析Cloudera Manager内部结构、功能包括配置文件、目录位置等
本帖最后由 nettman 于 2014-9-17 00:10 编辑问题导读1.CM的安装目录在什么位置?2.hadoop配置文件在什么位置?3.Cloudera manager运行所需要的信息存在什么位置?4.CM结构和功能是什么?1. 相关目录/var/log/cloudera-scm-installer : 安装日志目录。转载 2015-07-06 10:28:44 · 614 阅读 · 0 评论 -
HDFS的优缺点
1)处理超大文件 这里的超大文件通常是指百MB、设置数百TB大小的文件。目前在实际应用中,HDFS已经能用来存储管理PB级的数据了。 2)流式的访问数据 HDFS的设计建立在更多地响应"一次写入、多次读写"任务的基础上。这意味着一个数据集一旦由数据源生成,就会被复制分发到不同的存储节点中,然后响应各种各样的数据分析任务请求。在多数情况下,分析任务都会涉及数据集中的大部转载 2015-06-14 19:52:05 · 5108 阅读 · 0 评论 -
HDFS——如何将文件从HDFS复制到本地
下面两个命令是把文件从HDFS上下载到本地的命令。get使用方法:Hadoop fs -get [-ignorecrc] [-crc]复制文件到本地文件系统。可用-ignorecrc选项复制CRC校验失败的文件。使用-crc选项复制文件以及CRC信息。示例:hadoop fs -get /user/hadoop/file localfilehadoo转载 2015-08-26 15:32:23 · 5843 阅读 · 0 评论 -
HDFS文件写入
1、客户端通过DistributedFileSystem对象调用create函数来新建文件2、DistributeFilesystem对namenode创建一个RPC调用,在文件系统的命名空间中新建一个文件, 此时文件还没有相应的数据块,但是客户端已经能读取命名空间了,只是长度为null3、namenode执行一些连的检查却熬这个文件不存在 ,客户端有新建文件的权限4、DFSoutpu原创 2015-09-22 15:22:33 · 767 阅读 · 0 评论 -
HDFs数据读取过程
1、客户端通过调用FileSystem 对象open方法来打开文件2、DistributedFileSystem通过RPC调用来调用 namenode,确定文件快的起始位置,,namenode返回存有这块副本的datanode地址。3、datanode根据他们与客户端的距离来排序,4、DistributedFileSystem返回一个FSDataInputStream对象一个支持文件定原创 2015-09-22 14:54:43 · 723 阅读 · 0 评论 -
hdfs 上面block有异常处理流程
首先向namenode保证已损坏的数据快已经正在尝试读操作的datanode爱抛出checksumException异常namenode将这个数据块标记为已损坏, 因此,他不会将处理请求直接发送到这个节点,之后,他安排这个数据块的一个副本复制到另外一个datanode,如此一来,数据块的复制因子又回到了期望水平, 最后删除易损坏的数据块。转载 2015-09-22 17:36:03 · 656 阅读 · 0 评论 -
hadoop序列化框架
A 默认序列化框架是 Writable接口, 缺点: 缺乏语言的可移植性B 不使用java Serialization, 缺点: 不够精简, 用起来非常纠结, 无法做到 精简,快速, 可扩展, 支持互操作C Apache Thrift 一般用来作为二进制 数据的永久存储格式, Mapreduce格式对该类的支持有限D Google Protocol框架 一般用来做二进制数据原创 2015-09-23 10:26:57 · 647 阅读 · 0 评论 -
hadoop -rmr
1083 2015-12-23 15:56:31 hadoop fs -rmr /user/xxx/mid/20151201* 1084 2015-12-23 15:56:48 hadoop fs -ls /user/xxx/mid 1085 2015-12-23 15:57:33 hadoop fs -rmr /user/xxx/mid/20151202* 1089转载 2015-12-28 09:42:06 · 801 阅读 · 0 评论 -
Hadoop2.6.0防止误删机制-Trash
Hadoop2.6.0的回收站Trash机制跟Hadoop1变化不大,建议提前打开该功能(默认关闭),防止误删时欲哭无泪。1、修改/etc/Hadoop/core-site.xml,增加如下配置: 开启hdfs文件删除自动转移到垃圾箱,值为垃圾箱文件清除时间,单位是分钟。一般开启该配置比较好,防止删除重要文件。 --> fs.tras转载 2016-10-20 17:13:34 · 731 阅读 · 0 评论 -
Hadoop中HDFS写入文件的原理剖析
要为即将到来的大数据时代最准备不是,下面的大白话简单记录了Hadoop中HDFS在存储文件时都做了哪些个事情,位将来集群问题的排查提供一些参考依据。步入正题创建一个新文件的过程:第一步:客户端通过DistributedFilesystem 对象中的creat()方法来创建文件,此时,RPC会 通过一个RPC链接协议来调用namenode,并在命名空间中创建一个新文件,nam转载 2015-06-14 19:51:22 · 582 阅读 · 0 评论 -
org.apache.hadoop.security.AccessControlException: Permission denied: 权限错误
CDH5.0(Hadoop2)MapReduce作业报错: org.apache.hadoop.security.AccessControlException: Permission denied: user=Administrator, access=WRITE, inode=”/user”:hdfs:supergroup:drwxr-xr-x2014年4月22日CDH、Hadoop转载 2015-07-05 16:40:49 · 866 阅读 · 0 评论 -
HDFS实验之一:机架感知
1:背景 缺省情况下,hadoop的replication为3,3个副本的存放策略为:第一个block副本放在和client所在的datanode里(如果client不在集群范围内,则这第一个node是随机选取的)。第二个副本放置在与第一个节点不同的机架中的datanode中(随机选择)。 第三个副本放置在与第二个副本所在节点同一机架的另一个节点上。如果还有更多的副本就随转载 2015-05-07 18:40:50 · 555 阅读 · 0 评论 -
【Hadoop基础】hadoop fs 命令
1,hadoop fs –fs [local | ]:声明hadoop使用的文件系统,如果不声明的话,使用当前配置文件配置的,按如下顺序查找:hadoop jar里的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-site.xml。使用local代表将本地文件系统作为hadoop的转载 2015-06-23 21:53:20 · 440 阅读 · 0 评论 -
Hadoop分布式文件系统:架构和设计要点
【IT168 技术文章】 一、前提和设计目标 1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。 2、跑在HDFS上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理;比之关注数据访问的低延迟问题,更关键的在于数据访问的高吞吐量。转载 2015-06-28 14:46:59 · 725 阅读 · 0 评论 -
hadoop升级之fsck命令迎战miss block警告
时间 2014-07-21 16:49:43 三劫散仙原文 http://qindongliang1922.iteye.com/blog/2094610主题 Hadoop继上次升级hadoop完毕后,集群启动正常,但是在访问Namenode的50070的界面上,发现了如下截图的警告信息:如上异常,是什么意思呢?看了下官方的FAQ,大致意思就是,有转载 2015-06-30 15:22:25 · 1987 阅读 · 0 评论 -
CDH(Cloudera)与hadoop(apache)对比
转:http://www.aboutyun.com/thread-9225-1-1.htmlCloudera的CDH和Apache的Hadoop的区别 目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribution Including Apa转载 2015-06-30 15:54:11 · 1402 阅读 · 0 评论 -
Hadoop的fsck工具
HDFS支持fsck命令用以检查各种不一致。fsck用以报告各种文件问题,如block丢失或缺少block等。fack命令用法如下:bin/hadoop fsck [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]] 检查的起始目录-move 将损坏的转载 2015-06-30 15:22:53 · 695 阅读 · 0 评论 -
国内最全最详细的Hadoop2.2.0集群的HA高可靠的最简单配置
转:http://www.linuxidc.com/Linux/2014-01/95794.htm简介 Hadoop中的NameNode好比是人的心脏,非常重要,绝对不可以停止工作。在hadoop1时代,只有一个NameNode。如果该NameNode数据丢失或者不能工作,那么整个集群就不能恢复了。这是hadoop1中的单点问题,也是hadoop1不可靠的表现,如图1所转载 2015-06-30 15:44:28 · 550 阅读 · 0 评论 -
Hadoop管理命令 dfsadmin
Hadoop管理命令dfsadmindfsadmin是一个多任务的工具,我们可以使用它来获取HDFS的状态信息,以及在HDFS上执行的一系列管理操作。调用方式例如:Hadoop dfsadmin -reportdfsadmin命令详解-report:查看文件系统的基本信息和统计信息。-safeadmin enter | lea转载 2015-06-30 16:53:01 · 1354 阅读 · 0 评论 -
hadoop fs -put
hadoop fs -put kpi.log--min /第一个参数是 本地文件第二个参数是 hdfs文件目录转载 2015-06-10 20:54:50 · 3683 阅读 · 0 评论 -
cloudera CDH(5)开发方式及CDH eclipse插件编译总结
转 : http://www.aboutyun.com/thread-9159-1-1.html 问题导读1.CDH有几种开发方式?2.如何在CDH源码中,如何查找eclipse插件源码?我们知道hadoop的开发方式有两种hadoop插件开发方式1.插件开发对于插件开发,有些小麻烦。使用插件最好自己编译,因为eclipse插件能否连接成功,不止转载 2015-07-10 13:33:59 · 898 阅读 · 0 评论 -
hadoop fsck命令详解
博客分类: HDFS+HBASE hadoop fsckUsage: DFSck [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]] 检查这个目录中的文件是否完整 -move转载 2016-12-28 14:30:00 · 662 阅读 · 0 评论