luyaoguimeng-CSDN博客

转载 Hadoop MapReduce作业提交与初始化过程分析

一个MapReduce作业的提交与初始化过程，即从用户输入提交作业命令到作业初始化的整个过程。

2016-03-08 17:49:21 1431

转载 Hadoop-IPC模型

转载自：http://zhangyu8374.javaeye.com/blog/86306IPC实现RPC的一种方法，具有快速、简单的特点。它不像Sun公司提供的标准RPC包，基于Java序列化。IPC无需创建网络stubs和skeletons。IPC中的方法调用要求参数和返回值的数据类型必须是Java的基本类型，String和Writable接口的实现类，以及元素为以上类型的数组。接口方法应

2016-03-08 14:57:17 619

原创实现Writable类型的ListWritable，SetWritable

实现Writable类型的ListWritable，SetWritable

2016-03-08 12:40:26 1717

原创 Hbase使用MultiTableOutputFormat实现多表输出MapReduce job

我们经常遇到需要更新多个表从一个map中输出以减少程序的运行时间。一个简单的方法是使用一个multitableoutputformat。

2016-03-08 11:13:28 2293

转载 StringTokenizer类的用法

StringTokenizer是一个用来分隔String的应用类，相当于VB的split函数。 1.构造函数public StringTokenizer(String str)public StringTokenizer(String str, String delim)public StringTokenizer(String str, String delim, boolean retur

2016-02-21 19:06:46 320

转载 hadoop多文件格式输入（MultipleInputs）

转载自：http://blog.csdn.net/fansy1990/article/details/26267637hadoop多文件格式输入，一般可以使用MultipleInputs类指定不同的输入文件路径以及输入文件格式。比如现在有如下的需求：现有两份数据：phone：[plain] view plain copy 在CODE上查看代码片派生到我的代码片 123,good numbe

2016-02-21 10:43:40 605

转载自：http://yimaoqian.blog.51cto.com/1328422/15956491、插入HBase表传统方法具有什么问题？我们先看下 HBase 的写流程：通常 MapReduce 在写HBase时使用的是TableOutputFormat方式，在map/reduce中直接生成put对象写入HBase，该方式在大量数据写入时效率低下，因为HBase会block写入，频繁进行f

2016-02-21 10:32:31 499

原创使用eclipse向yarn提交job

1．向src复制hadoop4个配置文件复制Hadoop的4个配置文件放到src目录下面：core-site.xml,hdfs-site.xml,log4j.properties,mapred-site.xml,yarn-site.xml 2．修改mapred-site.xml 增加如下内容： <configuration>

2016-02-21 00:27:36 1682

原创使用eclipse连接hadoop

1．将插件放入eclipse/plugin/下将编译好的eclipse hadoop插件hadoop-eclipse-plugin-2.6.0.jar 拷贝到eclipse安装目录下的plugin目录下，重启eclipse2．配置Hadoop安装目录打开Window -> Preference -> Hadoop Map/Reduce，，配置右面的”Hadoop installation

2016-02-21 00:25:28 917

原创搭建spark集群

1．安装JDK 2．每台节点都安装 Scala 下载解压scalatar -zxvf scala-2.10.5.tgz3．下载解压sparktar zxvf spark-1.4.1-bin-hadoop2.6.tgz##解压4．设置环境变量export SPARK_HOME=/usr/local/spark-1.4.1PATH=$PATH:$SPARK_HOME/bin:$S

2016-02-21 00:18:35 260

原创 Phoenix安装

1．下载并解压tar -zxvf phoenix-4.6.0-HBase-0.98-bin.tar.gz2．配置Phoenix 将Phoenix目录下的phoenix-*.jar拷贝到HBase的lib目录 3．重启hbase集群使Phoenix的jar包生效。将hbase的配置文件hbase-site.xml 放到phoenix-4.6.0-HBase-0.98-bin /bin/下

2016-02-21 00:15:44 451

原创搭建Hbase集群

官方文档 http://hbase.apache.org/book.html#config.files1．下载并解压hbasetar –zxvf hbase-0.98.15-hadoop2-bin.tar.gz2．并配置环境变量 3．修改hbase-env.sh 修改conf/hbase-env.shexport JAVA_HOME=/usr/local/jdk1.7.0_80export

2016-02-20 23:48:53 545

原创搭建hive

首先需要安装mysql1．下载hive源文件，解压hive文件tar -zxvf apache-hive-1.2.1-bin.tar.gz 2．修改hive-env.shcp hive-env.sh.template hive-env.shvi $HIVE_HOME/conf/hive-env.sh ##增加以下四行export HADOOP_HOME=/usr/local/hadoop-2.6

2016-02-20 23:41:31 336

原创安装 MySQL

卸载mysql 参考http://blog.csdn.net/liumm0000/article/details/18841197删除 linux 上已经安装的 mysql 相关库信息。rpm -qa | grep -i mysql ##检查是否删除干净卸载mysql rpm -e MySQL-server-5.5.47-1.el6.x86_64 rpm -e

2016-02-20 23:33:47 298

原创 hadoop集群CentOS 6.5环境配置

一．关闭防火墙，设置静态IP、hostname 1．设置ip地址（建议，不设置为DHCP）vi /etc/sysconfig/network-scripts/ifcfg-eth0IPADDR="192.168.*.14"NETMASK="255.255.255.0"GATEWAY="192.168.8.1"DNS1="8.8.8.8"DNS2="8.8.4.4"2．设置主机名 Hostn

2016-02-20 23:19:56 441

原创搭建hadoop2.6集群

1．下载解压hadoop2.6tar -zxvf hadoop-2.6.0.tar.gz2．修改hadoop-env.shexport JAVA_HOME=/usr/local/jdk1.7.0_80export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:/usr/local/hbase-0.98.15/lib/*3．修改yarn-env.sh、export JA

2016-02-20 22:57:07 536

原创搭建zookeeper集群

1．下载zookeeper-3.4.6.tar.gz并解压tar -zxvf zookeeper-3.4.6.tar.gz2．配置环境环境export ZOOKEEPER_HOME=/opt/zookeeper-3.4.6export PATH=$ZOOKEEPER_HOME/bin:$PATH3．修改zoo.cfg 将conf/zoo_sample.cfg重命名为conf/zoo.cfgdat

2016-02-20 22:44:28 271

原创 Hadoop中传递list/Map/对象型参数的传递

写MapReduce程序通常要传递各种各样的参数，选择合适的方式来传递参数既能提高工作效率，也可以避免bug的产生。使用Configuration的各种set方法，对于基本数据类型都有很好的支持，比如传递kmeans聚类算法的中心点个数。如何传递一个对象型参数？话说所有的对象都是由基本类型构建的，所以我们可以覆盖这个对象的toString()方法，将它的所有元素表示成字符串，然后使用Con

2016-02-20 22:20:29 2440 1

luyaoguimeng的博客