Bigdatda-Hadoop2.0
文章平均质量分 87
礼彬fly
这个作者很懒,什么都没留下…
展开
-
Hadoop 2.x中fsimage和edits合并实现
在《Hadoop 1.x中fsimage和edits合并实现》文章中,我们谈到了Hadoop 1.x上的fsimage和edits合并实现,里面也提到了Hadoop 2.x版本的fsimage和edits合并实现和Hadoop 1.x完全不一样,今天就来谈谈Hadoop 2.x中fsimage和edits合并的实现。 我们知道,在Hadoop 2.x中解决了NameNode的单点故障转载 2015-03-15 21:00:42 · 974 阅读 · 0 评论 -
Yarn简单介绍及内存配置
Yarn简单介绍及内存配置 在这篇博客中,主要介绍了Yarn对MRv1的改进,以及Yarn简单的内存配置和Yarn的资源抽象container。我么知道MRv1存在的主要问题是:在运行时,JobTracker既负责资源管理又负责任务调度,这导致了它的扩展性、资源利用率低等问题。之所以存在这样的问题,是与其最初的设计有关,如下图:从上图可以看到,MRv1是围绕着MapRedu转载 2015-02-25 21:39:31 · 917 阅读 · 0 评论 -
Java把xls数据读写到txt里
getCell里面是两个整数,最多一次可以读取65535行。读取的行数如果大于这个,只能读取65535行。如果读取一千万多行的文本数据,用 EditPlus 软件打开,会直接卡死,如果用 Notepad++可以正常打开。如果只是想把数据格式转换一下,不进行数据处理,可以用Notepad++ 打开,然后另存为txt格式即可。如果原创 2015-04-11 14:49:29 · 1470 阅读 · 0 评论 -
创建hadoop-2.6.0工程导包
第一步:创建一个Java Project工程: 第二步:导包 进入目录:E:\hadoop software\hadoop-2.6.0\share\hadoopCommon: HDFS: Mapreduce: Yarn: Conmon:--lib: 开始导入包,为了方便管理,自定义一个包:原创 2015-04-11 15:29:43 · 1053 阅读 · 0 评论 -
DBInputFormat用法
输入的数据库数据:代码:package hadoop_2_6_0;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import java.sql.PreparedStatement;import java.sql.ResultSet;import原创 2015-04-14 21:10:56 · 1247 阅读 · 0 评论 -
mapreduce编程自定义排序
输入数据:[root@baolibin hadoop]# hadoop fs -text /input/hahaWarning: $HADOOP_HOME is deprecated.2 13 21 3代码:package hadoop_2_6_0;import java.io.DataInput;import ja原创 2015-04-14 20:08:16 · 977 阅读 · 0 评论 -
KeyValueTextInputFormat用法
数据是以空格为分隔符的。[root@baolibin hadoop]# hadoop fs -text /input/heheWarning: $HADOOP_HOME is deprecated.hello youhello mehello youhello me代码如下:package hadoop_2_6_0;import java.io.IOExcep原创 2015-04-14 19:56:34 · 4326 阅读 · 0 评论 -
hadoop2.6.0的maven的pom配置
4.0.0 mr mr 0.0.1-SNAPSHOT mr org.apache.zookeeper zookeeper 3.4.6 org.apache.hadoop hadoop-client 2.6.0 org.apache.hadoop hadoop-common 2.6.0原创 2015-04-11 15:22:07 · 3304 阅读 · 0 评论 -
自定义计数器
代码:import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org原创 2015-04-16 14:10:10 · 951 阅读 · 0 评论 -
CombineTextInputFormat用法
输入数据:代码:package inputformat;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Lo原创 2015-04-16 15:29:04 · 5426 阅读 · 1 评论 -
MultipleInputs用法
MultipleInputs处理多输入源,本例子包括 windows上的mysql数据库数据和hdfs上的文本数据。mysql数据:hdfs数据:[root@baolibin ~]# hadoop fs -text /input/heheWarning: $HADOOP_HOME is deprecated.hello youhello mehel原创 2015-04-16 16:07:40 · 3157 阅读 · 0 评论 -
mapreduce输出数据存入HBase中
数据格式:1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 200事先在HBase里把表创建好:create 'mr_hbases','cf'代码如下:package mrhbase;import java.i原创 2015-05-27 20:46:12 · 3699 阅读 · 0 评论 -
Hadoop的调度器总结
随着MapReduce的流行,其开源实现Hadoop也变得越来越受推崇。在Hadoop系统中,有一个组件非常重要,那就是调度器,它的作用是将系统中空闲的资源按一定策略分配给作业。在Hadoop中,调度器是一个可插拔的模块,用户可以根据自己的实际应用要求设计调度器。Hadoop中常见的调度器有三种,分别为:(注:本文介绍的Hadoop调度器不够系统化,如果想了解更系统化的Hadoop转载 2015-05-28 21:58:23 · 726 阅读 · 0 评论 -
Hadoop中两表JOIN的处理方法
1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍假设要进行join的数据分别来自转载 2015-07-01 21:36:07 · 720 阅读 · 0 评论 -
Hadoop-2.6.0集群HA搭建
Hadoop-2.6.0集群HA搭建 1、安装克隆四台虚拟机准备4台虚拟机192.168.1.2 hadoop000 NameNode192.168.1.3 hadoop111 NameNode、DataNode、JournalNode192.168.1.4 hadoop222 Da原创 2015-02-25 22:11:53 · 3558 阅读 · 0 评论 -
Hadoop-2.6.0集群搭建
Hadoop-2.6.0集群搭建 1、用到的软件和IP设置:1.1、jdk和hadoop版本:hadoop-2.6.0.tar.gzjdk-8u25-linux-x64.gz1.2、统一用户名hadoop001.3、集群IP与主机名:192.168.1.2 hadoop00192.168.1.3 hadoop11192.168.1.4 hadoop221原创 2015-02-25 21:12:27 · 2684 阅读 · 3 评论 -
hadoop启动关闭脚本
//start-hadoop.sh#!/bin/shhadoop_home=/usr/local/hadoop$hadoop_home/sbin/hadoop-daemon.sh start namenode$hadoop_home/sbin/hadoop-daemon.sh start datanode$hadoop_home/sbin/yarn-daemon.sh start re原创 2015-03-28 13:17:07 · 1841 阅读 · 0 评论 -
Maven项目使用Junit
Maven项目使用Junit 1、创建一个Maven项目 2、进入:http://www.mvnrepository.com/artifact/junit/junit/4.12 拷贝:junitjunit4.12 3、放进Maven项目里的pom.xml文件里去: junit junit 4.12原创 2015-03-28 15:54:27 · 2222 阅读 · 0 评论 -
(3-1)hadoop-2.6.0伪分布笔记
//查看主机名[root@i-love-you ~]# hostnamei-love-you//修改主机名[root@i-love-you ~]# vim /etc/sysconfig/network//IP与主机名绑定[root@i-love-you ~]# vim /etc/hosts//查看防火墙状态[root@i-love-you ~]# chk原创 2015-03-29 18:27:31 · 1563 阅读 · 0 评论 -
(3-2)快速SSH配置
有三台主机:hadoop0、hadoop1、hadoop2第一步:在三台 机器上 分别 免密码登陆本机 ssh-ketgen -t rsa cat /root/.ssh/id_rsa.pub >> authorized_keys第二步:实现 0和2免密码登录到 1 在0上执行 ssh-cop原创 2015-03-29 18:36:56 · 697 阅读 · 0 评论 -
(3-3)Hadoop的Linux的IP、网络配置
vm1是host only专用的,VM8是NAT模式host only:Win7和Linux必须同一个网段,用vm1网卡,不能上网。。 网关设置和Win7上vm1网卡ipv4的IP一样bridge:Win7和Linux不用同一个网段,可以上网。。如果上不了网,是没设置DNS。。命令行修改IP、配置网卡:cd /etc/sysconfig/netwo原创 2015-03-29 18:44:12 · 861 阅读 · 0 评论 -
Hadoop-2.0 目录简介
Hadoop-2.0 目录简介一、目录结构将下载的压缩包解压:解压后文件夹如下: 二、各文件夹目录结构1、bin:Hadoop2.0的最基本管理脚本和使用脚本所在目录。这些脚本是sbin目录下管理脚本的基础实现,我们可以直接用这些脚本管理和使用Hadoop。2、etc:这个目录里的文件只要接触过Hadoop的人都很熟悉。Hadoop配置文件目录。首先是从Ha原创 2015-01-07 16:54:04 · 1112 阅读 · 0 评论 -
Hadoop2.0源代码阅读
Hadoop2.0源代码阅读 1、拷贝软件,我用的软件如下图所示:2、安装jdk。创建java文件夹,并把jdk安装包拷进去。对jdk进行解压。解压完成之后以及jdk安装的目录情况。 配置jdk环境变量。使配置文件有效并验证jdk 版本。 验证java命令。验证javac命令。 3、安装Maven原创 2015-01-08 14:10:41 · 1895 阅读 · 2 评论 -
Hadoop2.0源码包简介
Hadoop2.0源码包简介1、解压源码包: 2、目录结构:hadoop-common-project:Hadoop基础库所在目录,如RPC、Metrics、Counter等。包含了其它所有模块可能会用到的基础库。 hadoop-mapreduce-project:MapReduce框架的实现,在第一代MR即MRv1中,MapReduce由编程模型(map/redu原创 2015-01-08 16:30:29 · 1475 阅读 · 0 评论 -
Hadoop2.6.0伪分布环境搭建
Hadoop2.6.0伪分布环境搭建用到的软件:一、安装jdk:1、要安装的jdk,我把它拷在了共享文件夹里面。 (用优盘拷也可以)2、我把jdk拷在了用户文件夹下面。(其他地方也可以,不过路径要相应改变)3、执行复制安装解压命令: 解压完毕: 查看解压的文件夹:4、配置 环境变量:写入如下5行代码:使配置生效:原创 2015-01-21 00:18:39 · 5146 阅读 · 10 评论 -
hadoop-2.6.0伪分布运行WordCount
hadoop-2.6.0运行WordCount 1、启动Hadoop: 2、创建file 文件夹: 这个是建在本地硬盘上的:进入该目录:创建两个 txt 文件:结果如下:3、在HDFS上创建输入文件夹目录 input :把本地硬盘上创建的文件传进input 里面:查看结果: 4、Hadoop自带的运原创 2015-01-22 16:35:05 · 2454 阅读 · 0 评论 -
Hadoop-2.6.0 Eclipse运行代码案例
Hadoop-2.6.0 Eclipse运行代码案例1、创建eclipse安装目录 eclipse : 复制安装解压eclipse:解压完毕截图: 解压后的eclipse : Eclipse打开界面: 2、把 hadoop-eclipse-plugin-2.6.0.jar 拷到 eclipse里的plugins 目录里面去:原创 2015-01-22 23:33:24 · 2318 阅读 · 0 评论 -
Hadoop-2.6.0伪分布--安装配置hbase
Hadoop-2.6.0伪分布--安装配置hbase1、用到的hadoop与hbase: 2、安装hadoop:具体安装看这篇博文:http://blog.csdn.net/baolibin528/article/details/42939477 hbase所有版本下载http://archive.apache.org/dist/hbase/3、原创 2015-01-27 00:31:55 · 4972 阅读 · 1 评论 -
hadoop2.0 wordcount代码讲解
hadoop2.0 wordcount代码讲解本代码从hadoop-2.6.0里面拷贝出来的。完整代码如下:/** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * di原创 2015-02-02 21:25:02 · 1782 阅读 · 0 评论 -
Hadoop层级队列组织方式
在Hadoop 0.20.x版本或者更早的版本,Hadoop采用了平级队列组织方式,在这种组织方式中,管理员可将用户分到若干个扁平队列中,在每个队列中,可指定一个或几个队列管理员管理这些用户,比如杀死任意用户的作业,修改任意用户作业的优先级。然而,从资源管理角度看,仅仅按照队列组织用户是不够的,还需要将资源划分到这几个队列中,并按照一定的策略完成资源分配,这就需要Hadoop作业调度器的支持。总之转载 2015-07-03 15:50:02 · 1302 阅读 · 0 评论