![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
WangJonney
一步一步慢慢爬。
展开
-
hadoop之伪分布安装
hadoop 采用HDFS体系结构(Distributed File system分布式)。为了方便学习hadoop的伟大功能。本人采取在VMware中安装Linux虚拟机的方式。通过配置Linux的各种环境,为hadoop学习做准备!首先在VMware中安装Linux(本人采用centOS以下都称做centOS)操作系统。本人不做具体详解。安装完成后,就可进行伪分原创 2014-12-06 20:47:31 · 470 阅读 · 0 评论 -
MapReduce的两表join操作优化
注:优化前的分析过程详见本博的上篇博文案例地址(Address)和人员(Person)的一对多关联 原始数据地址(Address)数据id AddreName1 beijing2 shanghai3 guangzhou人员(Person)数据1 zhangsan 12 lisi 23 wangwu 14 zhaoliu 35 maqi 3原创 2015-03-26 14:52:39 · 2182 阅读 · 0 评论 -
MapReduce处理二次排序(分区-排序-分组)
MapReduce二次排序原理在map阶段,使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites,同时InputFormat提供一个RecordReader的实现。本例子中使用的时TextInputFormat,他提供的RecordReader会将文本的字节偏移量作为key,这一行的文本作为value。这就是自定义Ma原创 2015-03-28 12:37:11 · 1663 阅读 · 0 评论 -
MapReduce处理表的自连接
原始数据/* * 原始数据 * 子 父 * Tom Lucy Tom Jack Jone Locy Jone Jack Lucy Mary Lucy Ben Jack Alice Jack Jesse TerryAlice TerryJesse PhilipAlma Mark Terry Mark Alma */要求通过原创 2015-03-28 12:59:05 · 2155 阅读 · 0 评论 -
MapReduce实现倒排索引
使用到Combiner编程(可插拔式)在map端对输出先做合并,最基本是实现本地key合并,具有本地reduce功能如果不用combiner,所有结果都是reduce完成,效率会底下Combiner的的输入输出类型应该完全一致(实现如累加,最大值等功能)job.setCombinerClass();倒排索引基本实现package cn.MapReduce.px;impo原创 2015-03-28 16:10:35 · 1090 阅读 · 0 评论 -
MapReduce处理输出多文件格式(MultipleOutputs)
MultiPleOutputs原理MapReduce job中,可以使用FileInputFormat和FileOutputFormat来对输入路径和输出路径来进行设置。在输出目录中,框架自己会自动对输出文件进行命名和组织,如part-(m|r)-00000之类,但有时为了后续流程的方便,我们常需要对输出结果进行一定的分类和组织。以前常用的方法是在MR job运行之后,用脚本对目录下的数据原创 2015-03-30 16:43:43 · 5419 阅读 · 0 评论 -
MapReduce对输入多文件的处理2自定义FileInputFormat类
多种自定义文件格式的文件输入处理MultipleInputs可以让MR支持多种输入格式比如我们有两种文件格式,那么我们就要有两套Record Class,RecordReader和InputFormatInputFormat(extends FileInputFormat)--->RecordReader(extends RecordReader)--->RecordClass(imp原创 2015-03-29 19:43:12 · 1670 阅读 · 0 评论 -
MapReduce对输入多文件的处理
MultipleInputs类指定不同的输入文件路径以及输入文化格式 现有两份数据 phone 123,good number 124,common number 125,bad number user zhangsan,123 lisi,124 wangwu,125 现在需要把user和phone按照phone number连接起来。得到下面的结果 z原创 2015-03-29 15:28:16 · 5181 阅读 · 0 评论 -
MapReduce处理数据平均值与数值大小排行比较
一:计算数据平均值在map中将名称作为key 数据为value写出去/* * 计算平均成绩 * 名字作为key 分数值为value写出去 */public class AverageMap extends Mapper { protected void map( LongWritable key, Text value, org.apache.hadoop.ma原创 2015-03-24 13:36:34 · 2704 阅读 · 0 评论 -
MapReduce的两表join一般操作
案例:(部门员工两表的join查询)原始数据员工表(emp): empno ename job mgr hiredate sal comm deptno loc 7499 allen salesman 7698 1981-02-20 1600 300 30 7782 clark manager 7639 1981-06-09 2450原创 2015-03-26 14:35:05 · 2973 阅读 · 0 评论 -
ZooKeeper集群搭建
ZooKeeper是Hadoop的分布式协调服务。包含一个简单的原语集,分布式应用程序可以基于Zookeeper实现同步服务,配置维护和命名服务等。Zookeeper集群必须是奇数台。只要一半以上的机器运行,就能提供服务。 zookeeper的默认配置文件为zookeeper/conf/zoo_sample.cfg,需要将其修改为zoo.cfg。其中各配置项的含义,解释如下:1.t原创 2015-01-24 17:08:05 · 585 阅读 · 0 评论 -
数据迁移sqoop学习心得
sqoop是Apache基金会下的数据迁移工具。主要功能是能将数据库中的数据导入到hdfs中,同时也能使hdfs中的数据导出至数据库中。sqoop的安装只需在hadoop集群中的任意一台机器上即可。因为sqoop自动配置了搜寻NameNode和ResourceManage的功能,运行时能访问到hadoop的core-site.xml,hdfs-site.xml,yarn-site.xml等配置原创 2015-02-03 10:51:39 · 1652 阅读 · 0 评论 -
MapReduce2.0处理机制
MapReduce(分布式计算模型)作为Hadoop家族一重要的家庭成员主要用于搜素领域,海量数据计算等问题。 内部模型采用"分而治之"的思想。MapReduce分为两部分(Map和Reduce)。其中Shuffler是对Reduce的预处理。map和reduce的数据处理方式均采取键值对的方式:即 [k1,v1]->MAP->[K2,V2]->Reduc原创 2015-01-16 19:54:32 · 609 阅读 · 0 评论 -
HBase学习心得
Hadoop Database简称HBase,是一个高可靠性、高性能、面向列,可伸缩的分布式存储系统。 利用HBase可在廉价的PC Server上搭建起大规模结构化存储集群。利用HDFS作为其文件存储系统、利用MapReduce处理HBase中海量数据、利用Zookeeper作为协调工具。 一:HBase主要包含三种属性: 主键:Row Key原创 2015-02-04 18:34:01 · 2483 阅读 · 0 评论 -
hadoop远程调试
JDWP 设置JVM本身就支持远程调试,Eclipse也支持JDWP,只需要在各模块的JVM启动时加载以下参数:dt_socket表示使用套接字传输。address=8000JVM在8000端口上监听请求,这个设定为一个不冲突的端口即可。server=y y表示启动的JVM是被调试者。如果为n,则表示启动的JVM是调试器。suspend=yy表示启动的JVM会暂停等原创 2015-01-20 13:04:43 · 482 阅读 · 0 评论 -
Linux下maven开发MapReduce
1.安装mvn 1.1上传安装包到linux 1.2解压maven安装包 mkdir /usr/maven tar -zxvf apache-maven-3.2.1-bin.tar.gz -C /usr/maven 1.3添加maven到环境变量 vim /etc/profile export JAVA_HOME=/usr/java/jdk1.7.0_5原创 2015-01-19 18:43:28 · 891 阅读 · 0 评论 -
HBase学习心得之HBase原理&Java接口操作增删改查
HBase之伟大(总结) 一:region是按大小分割的,每个表开始只有一个region。随着数据不断插入表,region会不断增大,增大到了某个阀值,HRegion就会等分成两个新的HRegion。 二:HRegion是Hbase中分布式存储和负载均衡的最小单位,最小单位就表示不同的HRegion能分布在不同的HRegion Server上,但一个HRegion是不能拆分到多个S原创 2015-02-10 11:23:03 · 808 阅读 · 0 评论 -
Hive学习心得&Hive的UDF
一:Hive基本介绍Hive是建立在Hadoop上的数据仓库基础构架,它提供了一系列工具可以用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模的数据机制。使用语言:QL语言(类SQL查询语言)。能处理内建的mapper和reducer无法完成的复杂分析工作。1.Hive是SQL解析引擎,它将SQL语句转译成M/R Job然后再Hadoop执行。2原创 2015-02-16 10:29:24 · 1494 阅读 · 0 评论 -
MapReduce处理数据去重与数据排序
一:MapReduce处理数据去重Map的key具有数据去重的功能/* * 去除数据中相同数据 * 数据去重问题 * 以整个数据作为key发送出去, value为null */public class DelsameMap extends Mapper { @Override protected void map(LongWritable key, Text value,原创 2015-03-24 11:23:21 · 4060 阅读 · 1 评论