hadoop
suibianshen2012
这个作者很懒,什么都没留下…
展开
-
一个完整的mapreduce程序
package com.hadoop.mapreduce.dc;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoo原创 2015-05-07 21:24:47 · 826 阅读 · 0 评论 -
hadoop命令大全
FS ShellcatchgrpchmodchowncopyFromLocalcopyToLocalcpdudusexpungegetgetmergelslsrmkdirmovefromLocalmvputrmrmrsetrepstattailtesttexttouchzFS She转载 2017-04-13 15:40:11 · 343 阅读 · 0 评论 -
hadoop常用操作命令汇总
* 文件操作 * 查看目录文件 * $ hadoop dfs -ls /user/cl * * 创建文件目录 * $ hadoop dfs -mkdir /user/cl/temp * * 删除文件 * $ hadoop dfs -rm /user/cl/temp/a.txt * * 删除目录与目录下所有文件 * $ hadoop dfs -rmr /u转载 2016-07-01 09:40:34 · 738 阅读 · 0 评论 -
hive内部表、外部表
hive内部表、外部表区别自不用说,可实际用的时候还是要小心。1. 内部表:[sql] view plain copy print?create table tt (name string , age string) location '/input/table_data'; 此时,会在hdfs上新建一个tt表的数据存放转载 2016-06-24 10:04:58 · 812 阅读 · 0 评论 -
Hbase数据库中表的操作命令简介 Hbase shell命令
进入hbase命令行./hbase shell显示hbase中的表list创建user表,包含info、data两个列族create 'user', 'info1', 'data1'create 'user', {NAME => 'info', VERSIONS => '3'}向user表中插入信息,row key为rk0001,列族info中添加n原创 2015-09-15 11:12:53 · 15298 阅读 · 0 评论 -
hadoop中slot简介(map slot 和 reduce slot)
Slots是Hadoop的一个重要概念。然而在Hadoop相关论文,slots的阐述难以理解。网上关于slots的概念介绍也很少,而对于一个有经验的Hadoop开发者来说,他们可能脑子里已经理解了slots的真正含义,但却难以清楚地表达出来,Hadoop初学者听了还是云里雾里。我来尝试讲解一下,以期抛砖引玉。首先,slot不是CPU的Core,也不是memory chip,它是原创 2015-09-07 20:53:44 · 8693 阅读 · 0 评论 -
hadoop2.x 如何解决NameNode单节点故障问题?
hadoop1中只有一个NameNode节点,所以存在单节点故障问题。在Hadoop2.x中有两个NameNode,一个是 active namenode状态是active,另一个是standy namenode 状态是standy两者是进行切换的,但是有且只有一个active! Hadoop解决单点故障的方法有很多种,本文主要介绍目前应用比较广泛的HDFS HA解决方案原创 2015-09-06 17:05:17 · 2870 阅读 · 0 评论 -
Partition MapReduce
1.解析PartitionMap的结果,会通过partition分发到Reducer上,Reducer做完Reduce操作后,通过OutputFormat,进行输出,下面我们就来分析参与这个过程的类。Mapper的结果,可能送到Combiner做合并,Combiner在系统中并没有自己的基类,而是用Reducer作为Combiner的基类,他们对外的功能是一样的,只是使用的位置和使原创 2015-08-31 10:33:16 · 588 阅读 · 0 评论 -
hadoop中HBase、Flume、Hive、Zookeeper简要概述
(1)HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般原创 2015-09-07 21:40:42 · 1691 阅读 · 0 评论 -
hadoop中shuffle详解(mapreduce)
这张是官方对Shuffle过程的描述。但我可以肯定的是,单从这张图你基本不可能明白Shuffle的过程,因为它与事实相差挺多,细节也是错乱的。后面我会具体描述Shuffle的事实情况,所以这里你只要清楚Shuffle的大致范围就成-怎样把map task的输出结果有效地传送到reduce端。也可以这样理解, Shuffle描述着数据从map task输出到reduce task输入的这段过程。转载 2015-09-02 18:00:13 · 2340 阅读 · 0 评论 -
hadoop2.x对hadoop1在HDFS和Mapre方面的改进(hadoop1和hadoop2的区别)
一、HDFS的改进1.1 Hadoop1.x时代的HDFS架构 在Hadoop1.x中的NameNode只可能有一个,虽然可以通过SecondaryNameNode与NameNode进行数据同步备份,但是总会存在一定的延时,如果NameNode挂掉,但是如果有部份数据还没有同步到SecondaryNameNode上,还是可能会存在着数据丢失的问题。该架构如图1所示:原创 2015-09-07 16:55:40 · 2920 阅读 · 0 评论 -
hadoop2.x的HA简介
1)基础架构(1)NameNode(Master)命名空间管理:命名空间支持对HDFS中的目录、文件和块做类似文件系统的创建、修改、删除、列表文件和目录等基本操作。块存储管理(2)DataNode(Slaver)namenode和client的指令进行存储或者检索block,并且周期性的向namenode节点报告它存了哪些文件的block2)HA架构原创 2015-09-08 20:07:01 · 1060 阅读 · 0 评论 -
Name node is in safe mode.错误处理方式 hadoop
问题描述:当用hadoop向hdfs上传文件时,报Name node is in safe mode错误,上传失败解决方式:【命令】hadoop dfsadmin -safemode leave【注意】安全模式的几种参数含义enter ---表示进入安全模式leave ---表示离开安全模式get ----表示查看当前是否在安全模式wait ---表示等待一原创 2015-08-27 16:00:29 · 773 阅读 · 0 评论 -
win7无法访问虚拟机中的hadoop2.x的web管理界面
问题描述:在Windows7下用VM虚拟机搭建的linux环境下运行hadoop,Windows7下可以ping通linux(ip为:192.168.8.158);在linux下也能用浏览器打开hadoop的web管理界面(如:192.168.8.158:50070),但是在Windows下无法用浏览器打开hadoop的web管理界面。解决方法:按理说,应该关闭linux(楼主原创 2015-08-13 17:44:41 · 5074 阅读 · 1 评论 -
启动hadoop时报错,nodemanager running as process 6410. Stop it first.解决方法
解决方法: 进程已经在运行中了,先执行stop-all.sh下,然后再执行start-all.sh,再不行就把那些进程全部Kill掉再试原创 2015-08-13 16:19:45 · 22362 阅读 · 6 评论 -
hadoopstreaming job中参数解释 python
-D stream.map.output.field.separator :设置map输出中key和value的分隔符 -D stream.num.map.output.key.fields : 设置map程序分隔符的位置,该位置之前的部分作为key,之后的部分作为value -D map.output.key.field.separator : 设置map输...原创 2018-07-25 15:17:37 · 386 阅读 · 0 评论