Mapreduce
我爱大海V5
从事互联网工作
展开
-
Mapreduce Error: Type mismatch in key from map
http://blog.csdn.net/doc_sgl/article/details/9413767关于Mapreduce中出现的错误:Type mismatch in key from map: expected **, recieved org.apache.hadoop.io.LongWritable例如:13/07/22 02:53:32 INFO转载 2013-11-26 17:40:37 · 875 阅读 · 0 评论 -
Hadoop MapReduce 二次排序原理及其应用
目录[-]1、首先说一下工作原理: 2、二次排序 3、具体步骤: 1 自定义key。 2 由于key是自定义的,所以还需要自定义一下类: 4 代码:5 测试需求:6 测试数据与结果:7 原理图(点击查看大图):8、推荐阅读:9、REF:关于二次排序主要涉及到这么几个东西:在0.20.0 以前使用的是setPar原创 2013-12-13 17:37:01 · 970 阅读 · 0 评论 -
自定义 hadoop MapReduce InputFormat 切分输入文件
在上一篇中,我们实现了按 cookieId 和 time 进行二次排序,现在又有新问题:假如我需要按 cookieId 和 cookieId&time 的组合进行分析呢?此时最好的办法是自定义 InputFormat,让 mapreduce 一次读取一个 cookieId 下的所有记录,然后再按 time 进行切分 session,逻辑伪码如下:for OneSplit in MyIn转载 2013-12-16 18:28:47 · 1046 阅读 · 0 评论 -
Hadoop 中利用 mapreduce 读写 mysql 数据(转)
有时候我们在项目中会遇到输入结果集很大,但是输出结果很小,比如一些 pv、uv 数据,然后为了实时查询的需求,或者一些 OLAP 的需求,我们需要 mapreduce 与 mysql 进行数据的交互,而这些特性正是 hbase 或者 hive 目前亟待改进的地方。好了言归正传,简单的说说背景、原理以及需要注意的地方:1、为了方便 MapReduce 直接访问关系型数据库(Mysql原创 2013-12-16 11:47:21 · 1031 阅读 · 0 评论 -
Hadoop 多表 join:map side join 范例
在没有 pig 或者 hive 的环境下,直接在 mapreduce 中自己实现 join 是一件极其蛋疼的事情,MR中的join分为好几种,比如有最常见的 reduce side join,map side join,semi join 等。今天我们要讨论的是第 2 种:map side join,这种 join 在处理多个小表关联大表时非常有用,而 reduce join 在处理多表关联时是比原创 2013-12-18 17:19:57 · 946 阅读 · 0 评论 -
十分钟掌握 MapReduce 的精髓
微软著名的C++大师Herb Sutter在2005年初的时候曾经写过一篇重量级的文章:”The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software“,预言OO之后软件开发将要面临的又一次重大变革-并行计算。 摩尔定律统制下的软件开发时代有一个非常有意思的现象:”Andy giveth, and转载 2014-03-06 10:32:12 · 696 阅读 · 0 评论 -
使用 FileSystem JAVA API 对 HDFS 进行读、写、删除等操作
Hadoop文件系统 基本的文件系统命令操作, 通过hadoop fs -help可以获取所有的命令的详细帮助文件。 Java抽象类org.apache.hadoop.fs.FileSystem定义了hadoop的一个文件系统接口。该类是一个抽象类,通过以下两种静态工厂方法可以过去FileSystem实例: public static FileSystem.get(Configur转载 2014-03-06 14:12:14 · 683 阅读 · 0 评论