hadoop
岸芷汀兰whu
热爱生活、热爱技术
展开
-
收藏的一些项目
traffic-reduce spark时间序列原创 2015-09-01 12:44:29 · 372 阅读 · 0 评论 -
欢迎使用CSDN-markdown编辑器
idea开发mapreduce实战我的intellij idea版本是14,Hadoop版本2.6,使用《hadoop权威指南》的天气统计源码作为示例。下面附上源码,数据集在http://hadoopbook.com/code.html可以下载1901和1902两年数据:代码package com.hadoop.maxtemperature; import java.io.IOException;原创 2016-12-19 23:21:41 · 747 阅读 · 0 评论 -
hbase权威指南-客户端API高级特性
1.过滤器层次结构过滤器层次结构的最底层是Filter接口和FilterBase抽象类,它们实现了过滤器的空壳和骨架 大部分过滤器直接继承自FilterBase,用户定义一个所需要的过滤器实例,同时把定义好的过滤器实例传递给Get或Scan实例:setFilter(filter)2比较运算符继承自CompareFilter的过滤器比基类FilterBase多了一个compare()方法,它需要传入原创 2016-07-01 17:11:03 · 689 阅读 · 0 评论 -
hadoop权威指南(一)
Chap1 初始hadoopMapReduce比较适合以批处理方式处理需要分析整个数据集的问题,尤其是动态分析。MapReduce对非结构化或半结构化数据非常有效,因为它是中处理数据时才对数据进行解释。即MapReduce输入的键和值并不是数据固有的属性,而是由分析数据的人来选的。MapReduce是一种线性可伸缩编程模型,我们需要写map函数和reduce函数,每个函数定义一个键值对集合到另原创 2016-06-26 00:36:37 · 6228 阅读 · 0 评论 -
3 hbase基础知识
创建Put实例时用户需要提供一个行键row 创建Put实例之后,就可以向该实例添加数据类了。 Put add() 每次调用add()都可以特定地添加一列数据。 获取Put实例内部添加的KeyValue实例需要调用get()方法或者getFamilyMap()方法。 若要频繁地重复修改某些行,用户有必要创建一个RowLock实例来防止其他客户端访问这些行。KeyValue类原创 2016-06-25 16:31:04 · 512 阅读 · 0 评论 -
mac安装Hadoop和hive
参考MACbrew install hadoop原创 2016-03-15 15:25:17 · 2323 阅读 · 0 评论 -
hadoop-自定义数据类型
自定义类型必须实现Writable接口 而且要指定map,reduce函数的输出类型 job.setMapOutputValueClass(KpiWritable.class); job.setOutputValueClass(KpiWritable.class);package mapreduce;import java.io.DataInput;import java.io.D原创 2015-12-05 19:59:14 · 1129 阅读 · 0 评论 -
hadoop-分区
hadoop分区的实现分区的作用: 1. 根据业务需要,产生多个文件输出 2. 多个reduce任务在运行,提高整体job的运行速度。实现方法: 在驱动类里写个分区内部类,它必须继承HashPartitioner接口,同时实现getPartition方法。job指定分区类 job.setPartitionerClass(KpiPartitioner.class); j原创 2015-12-05 20:23:05 · 1016 阅读 · 0 评论 -
hadoop-wordcount
package mapreduce;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;im原创 2015-12-05 19:42:50 · 354 阅读 · 0 评论 -
hadoop-combiner
combinercombiner实际上就是map端的小的reducer,和reducer一样要继承Reduce 接口package combine;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hado原创 2015-12-05 20:54:39 · 448 阅读 · 0 评论 -
hadoop-排序算法
二次排序package sort;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem原创 2015-12-05 20:52:16 · 708 阅读 · 0 评论 -
论坛日志处理项目总结
项目描述通过对黑马技术论坛的apache common日志进行分析, 计算论坛关键指标,供运营者决策。数据情况每行记录有5部分组成: 1.访问ip 2.访问时间 3.访问资源 4.访问状态 5.本次流量more access_2013_05_30.log27.19.74.143 - - [30/May/2013:17:38:20 +0800] “GET /static/image/com原创 2015-12-19 22:58:52 · 1669 阅读 · 1 评论 -
MapReduce中的Shuffle和Sort分析
MapReduce 是现今一个非常流行的分布式计算框架,它被设计用于并行计算海量数据。第一个提出该技术框架的是Google 公司,而Google 的灵感则来自于函数式编程语言,如LISP,Scheme,ML 等。MapReduce 框架的核心步骤主要分两部分:Map 和Reduce。当你向MapReduce 框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map 任务,然后分配到不同的节点上去转载 2017-02-21 15:52:22 · 554 阅读 · 0 评论