- 博客(9)
- 资源 (31)
- 收藏
- 关注
转载 生成HFile以及入库到HBase
一、MR生成HFile文件 [java] view plaincopy package insert.tools.hfile; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import or
2013-08-16 11:25:26 1306
转载 Hadoop中DBInputFormat和DBOutputFormat使用
一、背景 为了方便MapReduce直接访问关系型数据库(Mysql,Oracle),Hadoop提供了DBInputFormat和DBOutputFormat两个类。通过 DBInputFormat类把数据库表数据读入到HDFS,根据DBOutputFormat类把MapReduce产生的结果集导入到数据库表中。 二、技术细节 1、DBInputFormat(Mys
2013-08-13 10:03:21 991
转载 hadoop作业调优参数整理及原理
1 Map side tuning参数 1.1 MapTask运行内部原理 当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的 部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性能。如上图所示,每一个map都会对应存在一个内存 buffer(MapOutputBuf
2013-08-09 15:13:41 589
转载 MapReduce Join联结实现
一、背景 早在8月份的时候,我就做了一些MR的Join查询,但是发现回北京之后,2个月不用,居然有点生疏,所以今天早上又花时间好好看了一下,顺便写下这个文档,以供以后查阅。 二、环境 JDK 1.6、Linux操作系统、hadoop0.20.2 三、资料数据 在做这个Join查询的时候,必然涉及数据,我这里设计了2张表,分别较data.txt和info.txt,字段之间以\t划分。 d
2013-08-09 15:06:50 701
转载 在Hadoop中使用MRUnit进行单元测试
本文地址:博客园 逖靖寒 http://gpcuster.cnblogs.com 前提 1. 了解JUnit4.x的使用。 2. 了解Mock的概念在单元测试中的应用。 3. 了解Hadoop中MapReduce的编程模型。 如果您对Junit和Mock不了解,可以先阅读[翻译]Unit testing with JUnit 4.x and EasyMock in Eclipse -
2013-08-08 15:36:05 1066
转载 Bloom Filter算法
集合数据结构一般都有这么一个方法:contains。其作用就是判断给定的元素是否存在集合中,这是一个常用的方法。其最简单的内部实现即遍历集合内的元素,一个个的判断是否与给定元素相等。为了更高效点我们甚至可以采用“更好的(好是相对的)”算法实现。比如如果该集合是已经排序的,那么我们用二分查找来实现contains肯定更好。但是,如果集合的数据量庞大到一定程度,大部分我们熟知的算法不再有什么用了。即使
2013-08-08 10:22:09 733 1
转载 Hadoop 使用Combiner提高Map/Reduce程序效率
众所周知,Hadoop框架使用Mapper将数据处理成一个键值对,再网络节点间对其进行整理(shuffle),然后使用Reducer处理数据并进行最终输出。 在上述过程中,我们看到至少两个性能瓶颈: 如果我们有10亿个数据,Mapper会生成10亿个键值对在网络间进行传输,但如果我们只是对数据求最大值,那么很明显的Mapper只需要输出它所知道的最大值即可。这样做不仅可以减轻网
2013-08-07 16:25:09 764
转载 远程调试hadoop各组件
远程调试对应用程序开发十分有用。例如,为不能托管开发平台的低端机器开发程序,或在专用的机器上(比如服务不能中断的 Web 服务器)调试程序。其他情况包括:运行在内存小或 CUP 性能低的设备上的 Java 应用程序(比如移动设备),或者开发人员想要将应用程序和开发环境分开,等等。 为了进行远程调试,必须使用 Java Virtual Machine (JVM) V5.0 或更新版本。 JPDA
2013-08-02 11:35:09 1577 1
原创 多线程打印问题
今天收到了同学的一个笔试题,内容如下: 4个线程 线程1 打印A 线程2打印B 线程3打印C 线程4打印D 向文件1中写入ABCDABCDABCD... 向文件2写入BCDABCDA... 向文件3写入CDABCDAB... 向文件4写入DABCDABC... 试着写了一下: package zmine.threadmore; impor
2013-08-01 14:27:00 899
Oracle知识库
2012-10-24
Java 优化编程
2012-08-07
Oracle调优心得
2012-08-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人