Hadoop
文章平均质量分 73
summerhai
路漫漫其修远兮
展开
-
从Hadoop框架与MapReduce模式中谈海量数据处理(淘宝技术架构)
从Hadoop框架与MapReduce模式中谈海量数据处理(淘宝技术架构)从hadoop框架与MapReduce模式中谈海量数据处理前言几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,觉得Hadoop是一项富有趣味和挑战性的技术转载 2013-04-10 22:59:24 · 963 阅读 · 1 评论 -
HBase编程实例
摘要:在前文中安装了Hbase,通过Hbase shell可以进行一些操作,但是和实际的编程实例联系起来不方便,因此本文介绍有关Hbase编程的实例。原创 2014-08-23 21:23:25 · 4028 阅读 · 0 评论 -
Hadoop中文词频统计
学习Hadoop都免不了WordCount,但是都是最简单的例子,而且都是以空格为划分的英文词频的统计,相比于中文,英文的统计显得简单很多,因为中文涉及到很多语义及分词的不同,通常不好统计中文词频,即使是现在的技术,也没有完全能符合人们标准的中文词频统计工具出现,不过现阶段还是有可以使用的工具的,比如IK Analyzer,今天就来尝试一下。先感谢看到的博客指导:http://www.cn原创 2014-04-13 14:35:24 · 5094 阅读 · 7 评论 -
MapReduce工作机制总结
总结从MapReduce程序中的JobClient.runJob(conf)开始,给出了MapReduce执行的流程图(如下),并分析了流程图中的四个核心实体,结合实际代码介绍了MapReduce执行的详细流程。 MapReduce的执行流程简单概括如下:用户作业执行JobClient.runJob(conf)代码会在Hadoop集群上将其启动。启动之后Jo原创 2013-11-07 20:19:48 · 1318 阅读 · 0 评论 -
Hadoop Pipes编程之C++实现WordCount
Hadoop虽然用java实现,但是同样可以支持其他语言的Map和Reduce。由于需要学习C++方面的Hadoop实现,所以最近一直在研究Hadoop Streaming编程,其中Hadoop pipes允许C++程序员编写mapreduce程序,它允许用户混用C++和Java的RecordReader, Mapper, Partitioner,Rducer和RecordWriter等五个组件,原创 2014-04-25 23:18:02 · 2036 阅读 · 0 评论 -
MapReduce Job中全局共享数据的处理办法
在编写MapReduce程序时,经常会遇到这样的问题,全局变量如何保存?如何让每个处理都能获取保存的这些全局变量?使用全局变量是不可避免的,但是在MapRdeuce中直接使用代码级别的全局变量是不现实的。主要是因为继承Mapper基类的Map阶段类的运行和继承Reducer基类的Reduce阶段类的运行都是独立的,并不共享一个Java虚拟机的资源,因此,下面介绍三种在MapReduce编程中相对有原创 2014-04-13 10:18:46 · 2915 阅读 · 0 评论 -
利用Mahout实现在Hadoop上运行K-Means算法
K-Means算法是基于分划分的最基本的聚类算法,是学习机器学习、数据挖掘等技术的最基本的 知识,所以掌握其运行原理是很重要的。 转载请注明出处: http://hanlaiming.freetzi.com/?p=144 一、介绍Mahout Mahout是Apache下的开源机器学习软件包,目前实现的机器学习算法主要包含有协同过滤/推荐引擎,聚类和分类三原创 2013-11-21 22:40:28 · 2779 阅读 · 0 评论 -
hadoop实现单表和多表关联
转载请注明:http://hanlaiming.freetzi.com/?p=123在mapreduce上编写简单应用后,开始学习稍微高级一点的单表关联和多表关联。在学习过程中我参考了这篇文章,谢谢http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html,里面很多基本的内容很实用。一、单表关联。实原创 2013-11-05 19:29:27 · 1862 阅读 · 0 评论 -
在eclipse下编写简单mapreduce程序
转载请注明:http://hanlaiming.freetzi.com/?p=117前两天搭建好了hadoop环境,昨天完成了hadoop的eclipse插件编译,所以今天测试一下一些简单的mapreduce程序如何在eclipse上运行。首先说明我的实验环境:ubuntu版本12.04,hadoop版本1.2.1,java版本1.7.0_45,eclipse版本4.2Ju原创 2013-10-31 22:35:37 · 1702 阅读 · 0 评论 -
用hadoop计算PI值
摘要:最近研究hadoop的一个例子,计算PI值,本以为hadoop不适合这种密集型的计算,却发现了在hadoop自带的examples里,竟然有PiEstimator这个例子,于是深入研究一下,首先感谢博主http://thinkinginhadoop.iteye.com/blog/710847。原创 2014-08-30 10:19:39 · 7023 阅读 · 1 评论