Hadoop
文章平均质量分 87
Hadoop
w_t_y_y
这个作者很懒,什么都没留下…
展开
-
Hbase安装配置
基于ubuntu14.04+hadoop2.6.5伪分布式到官网http://hbase.apache.org/,选择最新的稳定版本,下载hbase-1.2.6-bin.tar.gz并解压到/usr/local/hadoop-2.6.5/hbase目录下。单机模式,模拟分布式模式,以及全分布式模式:可以在任何的三种模式来安装HBase。下面配置伪分布式模式下的hbase:1.设置环境变原创 2017-06-11 12:06:40 · 252 阅读 · 0 评论 -
hive的简单增删改查
安装好hive后,打开hadoop的目录,可以看到,比之前多了一个tmp文件夹,同时user目录下也多了一个hive文件夹一、建表及插入数据准备:在本地准备一个word.txt文件,内容如下:1 小明2 小张3 小美4 小李5 小宋6 小曲7 小樊8 小曲9 小樊10 小明11 小美每行两个数据,中间用空格隔开show tables;可以查看所有原创 2017-06-09 16:39:01 · 1178 阅读 · 0 评论 -
hive中的排序语法
hive实现排序及自定义排序原创 2017-06-09 17:07:07 · 724 阅读 · 0 评论 -
Hive(二)hive表的关联
。。。原创 2017-06-10 11:31:19 · 1854 阅读 · 0 评论 -
Hive(一)Hive的简介、安装配置
一、Hive简介二、Hive安装配置(基于ubuntu14.04+hadoop2.6.5+mysql5.5):1.我的hadoop安装目录在 /usr/local/hadoop-2.6.5 中, 到官网http://www.eu.apache.org/dist/hive/下载apache-hive-1.2.2-bin.tar.gz并解压到/usr/local/hadoop-2.6.5/hi原创 2017-06-08 11:08:44 · 262 阅读 · 0 评论 -
Hadoop Pig简介、安装
一、hadoop pig简介二、Pig的安装和配置:1.Pig的安装条件(1).HadoopPig有两种运行模式:Local模式和MapReduce模式。如果需要作业在分布式环境下运行,则需要安装Hadoop,否则可以选择不安装。另外,我安装的是Hadoop2.6.5,当然用户可以安装其他不同的版本,不过建议安装最新或较新的版本,因为版本是不端完善的嘛。(2).原创 2017-06-07 12:06:07 · 630 阅读 · 0 评论 -
ubuntu安装配置hadoop伪分布式及eclipse搭建hadoop环境
网上教程很多,我是按这个来的http://www.cnblogs.com/xiuyangleiasp/p/5010311.html。一、ubuntu安装配置hadoop过程为:1.安装ssh和ssh无密码登录2.安装jdk并配置环境变量(环境变量的配置是必须的,不然hadoop找不到jdk)。配置环境变量的时候需要注意不能覆盖了系统原来的环境变量,不然很多命令会无效。这样配置是没有问题原创 2017-05-24 12:09:50 · 527 阅读 · 0 评论 -
MapReduce实例----单表关联
1.源数据:Tom LucyTom JackJone Lucy Jone JackLucy MaryLucy BenJack AliceJack JesseTerry AliceTerry JessePhilip TerryPhilip AlmaMark TerryMark Alma这是一个child-parent表,第一列是child,第二列是parent原创 2017-06-04 11:55:33 · 579 阅读 · 0 评论 -
MapReduce实例----统计平均成绩
1.源数据:张三 90李四 100张三 60李四 80王五 88李四 1002.代码如下:package com.average;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apa原创 2017-06-03 14:45:19 · 2750 阅读 · 0 评论 -
hadoop MapReduce序列化
序列化是指将结构化对象转化为字节流以便在网络上传输或写到磁盘进行永久存储的过程。序列化在分布式数据处理的两大领域经常出现:进程间通信和永久存储。在hadoop中,系统中多个节点上进程间的通信是通过“远程过程调用”(RPC)实现的。RPC协议将消息序列化成二进制流后发送到远程节点,远程节点将流发序列化为原始消息。hadoop自带的org.apache.hadoop.io包中有广泛的Write原创 2017-06-05 20:32:14 · 345 阅读 · 0 评论 -
MapReduce实例----统计个数
一、统计个数1.完整代码:package com.zt;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop原创 2017-05-24 17:43:22 · 1737 阅读 · 0 评论 -
MapReduce原理
MapReduce是一种编程思想,可以用多种语言去实现。原创 2017-05-24 17:00:28 · 241 阅读 · 0 评论 -
MapReduce实例----排序
一、将数据从小到大排序1.思路分析:这个实例仅仅要求对输入数据进行排序,熟悉MapReduce过程的读者会很快想到在MapReduce过程中就有排序,是否可以利用这个默认的排序,而不需要自己再实现具体的排序呢?答案是肯定的。 但是在使用之前首先需要了解它的默认排序规则。它是按照key值进行排序的,如果key为封装int的IntWritable类型,那么MapReduce按照数字大小对原创 2017-05-31 21:01:27 · 708 阅读 · 0 评论 -
MapReduce实例----倒排索引
讲这个例子之前,先来看一下setCombinerClass这个函数,MapReduce框架只要一个map函数和一个reduce函数即可,而我们在Job调用这两个函数所在的类之间往往会调用一次setCombinerClass函数,其参数和setReducerClass是一样的。实际上,这个setCombinerClass不是必须要调用的,视具体情况而定,可要可不要。那么调用setCombinerCl原创 2017-06-05 16:36:19 · 4219 阅读 · 0 评论 -
MapReduce实例----多表关联
多表关联和单表关联类似,它也是通过对原始数据进行一定的处理,从其中挖掘出关心的信息。输入是两个文件,一个代表工厂表,包含工厂名列和地址编号列;另一个代表地址表,包含地址名列和地址编号列。要求从输入数据中找出工厂名和地址名的对应关系,输出"工厂名——地址名"表。1.源数据:factory: factoryname addressed原创 2017-06-05 14:42:20 · 1878 阅读 · 0 评论 -
MapReduce阶段性总结实例一
源数据:1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 200 1363157995052 13826544101 5C-0E-8B-C7-F1-E0:CMCC 120.197.40.4原创 2017-06-01 11:43:13 · 580 阅读 · 0 评论 -
MapReduce实例----数据去重
数据去重的最终目标是让原始数据中出现次数超过一次的数据在输出文件中只出现一次。我们自然而然会想到将同一个数据的所有记录都交给一台reduce机器,无论这个数据出现多少次,只要在最终结果中输出一次就可以了。具体就是reduce的输入应该以数据作为key,而对value-list则没有要求。当reduce接收到一个时就直接将key复制到输出的key中,并将value设置成空值。 在MapRedu原创 2017-05-31 15:41:25 · 7662 阅读 · 0 评论