- 博客(14)
- 资源 (1)
- 收藏
- 关注
原创 Hadoop二次排序的其他写法
Hadoop二次排序的其他写法 二次排序原理 在map阶段,使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites,同时InputFormat提供一个RecordReder的实现。 本例子中使用的是TextInputFormat,他提供的RecordReader会将文本的字节偏移量作为key,这一行的文本作为value。 这
2014-12-31 16:21:57 949 1
原创 Hadoop 默认排序
Hadoop 默认排序 1 3 1 2 1 1 3 3 3 2 2 2 2 1 3 1 排序后:左右前面一列排序 后面一列不排序 要想第二列也排序 请看 Hadoop二次排序 1 3 1 2 1 1 2 2 2 1 3 3 3 2 3 1 代码为:
2014-12-31 16:13:43 1342 1
原创 hadoop 二次排序
hadoop 二次排序 1 3 1 2 1 1 3 3 3 2 2 2 2 1 3 1 排序后: 1 1 1 2 1 3 2 1 2 2 3 1 3 2 3 3 代码为: package com.hadoop.test.SecondSort; im
2014-12-31 16:09:03 797 1
原创 hadoop join问题1
hadoop join问题1 Join讲解1: 获取员工所在部门信息,输出格式要求:员工编号,员工姓名,部门名称,部门编号 1、原始数据 员工数据 empno ename job mgr hiredate sal comm deptno loc 7499 allen salesman 7698 1981-02-20 1600 300 30
2014-12-29 20:05:52 744 1
原创 hadoop 处理日志
hadoop 处理日志 127.0.0.1 - - [03/Jul/2014:23:36:38 +0800] "GET /course/detail/3.htm HTTP/1.0" 200 38435 0.038 182.131.89.195 - - [03/Jul/2014:23:37:43 +0800] "GET / HTTP/1.0" 301 - 0.000 127.0.0.1 - -
2014-12-29 17:36:14 974 1
原创 Hadoop partition分区实践
package partition; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import
2014-12-22 20:27:22 821 1
原创 hadoop 打包运行 单词计数
package cmd; /** * 命令行运行//打包运行 */ import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.FileSystem; impo
2014-12-22 18:08:16 668
原创 hadoop 伪分布式学习步骤
hadoop 伪分布式学习步骤 Hadoop伪分布式学习步骤 一、安装Linux需要的步骤(下面是利用镜像文件安装Linux的步骤),懂得安装Linux下面就不要看了 用vm 打开解压的专用centos,找到镜像文件为: 注意在打开镜像文件之前,有参数要设置: 安装后出现的界面为: 用 root超
2014-12-20 11:49:15 492
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人