hdfs
anickname
专注大数据技术
展开
-
理解Hadoop分布式文件系统HDFS(一)
hdfs-分布式文件系统,既然是分布式文件系统,就必然涉及到网络编程,而网络编程的难度和复杂性是很大的。hdfs在数据读写和节点通讯会涉及到JAVA NIO和RPC机制,所以想要更好的理解hdfs,读懂其源码还是要有这方面相当的知识储备才行。hdfs网上的资料不少,看了那么的架构和原理,内容基本差不多,写这边文章是想记录自己对hdfs的所思所想。1.关于hdfs的特点高容错:在Hadoop原创 2016-01-26 15:55:29 · 1064 阅读 · 0 评论 -
HDFS报错:Connection refused!
在华为大数据平台FI C50上查看hdfs上的数据报错(hdfs dfs -ls /):自己在装其他组件的过程中,重启过多次服务,是不是因为这个原因,于是把namenode节点HDFS服务重启了,重启之后问题解决。原创 2016-01-27 10:49:23 · 2823 阅读 · 2 评论 -
理解Hadoop分布式文件系统HDFS(二)
hdfs federation--hdfs联邦,Hadoop 2.0以后引入的两大重要特性之一(HA和联邦)。HA保证了在主namenode节点出故障宕机之后,备namenode节点迅速接管主namenode工作,从而使得集群不间断的对外提供服务。hdfs在数据存储节点datanode上支持水平扩展,而namenode不支持水平切分。其所存储的文件数量依赖namenode内存大小,只有一个name原创 2016-02-02 16:00:43 · 723 阅读 · 0 评论 -
hadoop hdfs命令汇总
1.job相关的命令 hadoop job Usage: CLI [-submit ] [-status ] [-counter ] [-kill ] [-set-priority ]. Valid values for priorities are: VERY_HIGH HIGH原创 2016-03-03 14:48:54 · 1214 阅读 · 0 评论 -
关于Hadoop HDFS数据均衡。
在hadoop集群中,当有新节点增加或者删除原有节点时,如果不启用数据均衡服务(负载均衡),则会造成数据在集群中分布不均匀。由此而带来的问题是无法有效的利用MR本地化计算的优势,通俗来说就是A节点上运行的map任务所需数据不在A节点上,在B节点上。这就避免不了跨节点进行数据读取,造成了网络带宽的不必要消耗。为了解决这样的问题,引入数据均衡机制,也就是使用该服务达到集群中数据的均匀分布的目的。但是在原创 2016-03-03 16:38:49 · 6176 阅读 · 0 评论 -
hadoop集群远程拷贝数据
命令如下: hadoop distcp -Dmapred.job.queue.name=root.default -overwrite ftp://root:root@146.240.10.237/NFS/SFILSVR/SAPPNFS_20151231/CUNFS/2015-12-30/88023930 hdfs://nameservice1/user/pmtlas/TLAS/settlem原创 2016-03-08 11:45:30 · 2795 阅读 · 0 评论