hadoop
文章平均质量分 50
历史五千年
母校-太原工业学院
展开
-
hadoop java API实现文件上传
package com.zlf;import java.io.FileInputStream;import java.io.IOException;import org.apache.commons.io.IOUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataOutp...原创 2018-05-10 13:58:05 · 2218 阅读 · 0 评论 -
Hadoop mapreduce中自定义数据类型作为value值
序列化在分布式环境的两大作用:进程间通信,永久存储。 自定义数据类型需要实现Writable接口才能实现序列化 Any key or value type in the Hadoop Map-Reduce framework implements this interface.下面是Writable接口的源码:public interface Writable { /** ...原创 2018-06-10 08:04:54 · 1736 阅读 · 0 评论 -
hbase-1.2.6的安装
1、集群规划 这里假设hadoop集群以及zookeeper集群都安装好了。2、安装hbase1、解压缩安装包[hadoop@hadoop1 ~]$ tar -zxvf hbase-1.2.6-bin.tar.gz -C app[hadoop@hadoop1 ~]$ cd app[hadoop@hadoop1 app]$ lshadoop-2.6.5 hbase-1....原创 2018-06-15 14:14:17 · 307 阅读 · 0 评论 -
hadoop MapReduce自定义分区partition的作用和用法
背景在Hadoop的MapReduce过程中,每个map task处理完数据库后,如果存在自定义Combiner类,会先进行一次本地的reduce操作,然后把数据发送到Partitioner,由Partitioner来决定每条记录应该送往哪个reducer节点,默认使用的是HashPartitioner,其核心代码如下:public class HashPartitioner<K, ...原创 2018-06-08 13:02:16 · 6880 阅读 · 6 评论 -
hadoop MapReduce自定义分组combiner的作用和用法
每一个map task可能会产生大量的输出,combine的作用就是在map端对输出先做一次合并,以减少传输到reduce的数据量。 这里举个例子: map与reduce的例子 map理解为销售人员,reduce理解为销售经理。 每个销售人员(map task)只管销售,赚了多少钱销售人员不统计,也就是说这个销售人员没有combine,那么这个销售经理就累垮了,因为每个人都没有统计,它需...原创 2018-06-07 19:16:08 · 915 阅读 · 0 评论 -
hadoop HA场景下 java客户端远程访问hdfs配置
当hadoop namenode是HA集群时,客户端远程访问hdfs有两种实现方法: 方法1:将所有关于namenode的参数写入Configuration对象中。 代码:package com.lx;import java.io.BufferedInputStream;import java.io.FileInputStream;import java.io.InputStrea...原创 2018-05-31 19:16:14 · 5463 阅读 · 2 评论 -
Hadoop 2.6.5 Mapper类源码解读
在进行mapreduce程序开发时,需要继承Mapper类,并重写里面的map方法。 下面是Mapper类的源码。package org.apache.hadoop.mapreduce;import java.io.IOException;import org.apache.hadoop.classification.InterfaceAudience;import org.a...原创 2018-06-07 15:06:22 · 336 阅读 · 0 评论 -
apache-hive-1.2.2安装教程
1、安装前提1、hadoop集群(伪分布式也可以) 2、mysql数据库这里假设hadoop集群和mysql数据库都安装好了。2、配置mysql数据库1、创建hive元数据存放库mysql> create database hivemeta character set = latin1;Query OK, 1 row affected (0.00 sec)2...原创 2018-06-14 12:07:05 · 1485 阅读 · 0 评论 -
windows下开发mapreduce程序,打包在linux hadoop集群执行过程
假设mapreduce程序已经写好,主类名称是com.wc.WordCount 下面开始演示。 1、右键项目,点击export 2、在export界面选择java jar 3、输入文件名,点击finish 4、上传到hadoop集群namenode节点上 5、使用hadoop jar命令进行执行 命令格式:hadoop jar jarFileName mainClass ...原创 2018-05-31 14:02:47 · 2476 阅读 · 0 评论 -
mapreduce程序分解
mapreduce任务过程分为两个处理阶段:map阶段和reduce阶段。每个阶段都以键值对作为输入输出,其类型由程序员指定。程序员还需要重写两个函数:map函数和reduce函数。 map阶段输入的键是每一行的行偏移量;输入的值是该行文本,输出的键和值由程序员自定义。 下面以统计文本单词数进行演示。 假设有如下文本:[hadoop@hadoop1 ~]$ cat 1.txthel...原创 2018-05-31 13:23:37 · 814 阅读 · 0 评论 -
hadoop-2.6.5完全分布式集群安装,使用zookeeper做namenode和resourcemanager的HA
集群规划: 需要的软件安装包: CentOS 6.5 X86_64: https://pan.baidu.com/s/10UzTzJmG2ZahRBkcmuLzNQ hadoop-2.6.5.tar.gz: https://pan.baidu.com/s/1mjZCzshR5oQWZM3cLJt60g jdk-8u172-linux-x64.tar.gz: https://pan.ba...原创 2018-05-29 20:05:52 · 702 阅读 · 0 评论 -
hadoop mapreduce使用自定义数据类型作为键值
mapreduce中使用自定义数据类型作为键值,必须实现WritableComparable接口。 WritableComparables can be compared to each other, typically via Comparators. Any type which is to be used as a key in the Hadoop Map-Reduce frame...原创 2018-06-12 16:20:13 · 1133 阅读 · 0 评论 -
Hadoop 2.6.5使用mapreduce程序实现qq好友推送
1、准备模拟数据创建文件qqFriend.txt,并上传到hdfs上(/qq/input/qqFriend.txt)。 文件内容如下:aa bbcc ddee ffbb mmff ww从上面的好友列表可以看出: 1、aa和mm有共同的好友bb,所以aa和mm可以互相推送好友 2、ee和ww有共同的好友ff,所以ee和ww可以互相推送好友2、写mapreduc...原创 2018-06-05 14:16:37 · 385 阅读 · 0 评论 -
hadoop-2.6.5伪分布式集群搭建
本次搭建hadoop所使用的操作系统是红帽6,32位系统。[hadoop@hadoop01 ~]$ cat /etc/redhat-release Red Hat Enterprise Linux Server release 6.0 (Santiago)[hadoop@hadoop01 ~]$ uname -aLinux hadoop01 2.6.32-71.el6.i686 #1 S...原创 2018-05-11 17:05:08 · 1321 阅读 · 1 评论 -
hadoop java API实现文件下载
package com.zlf;import java.io.FileOutputStream; import java.io.IOException;import org.apache.commons.io.IOUtils; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FS...原创 2018-05-10 14:12:36 · 2076 阅读 · 0 评论 -
使用JAVA语言操作Hbase
下面我自定义了一个工具类HBaseUtil,通过该类可以方便的对hbase数据库进行增删改查。package com.demo;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Ce...原创 2018-06-19 17:20:43 · 1132 阅读 · 0 评论