Hadoop
文章平均质量分 76
Hello-BigData
我的目标:大数据+机器学习框架+算法
展开
-
yarn简介
由于yarn的出现,导致Hadoop的发展从1.x版本到2.x版本经历了一个质的飞跃。Hadoop其基本结构式主从的模式,在1.x版本中,Hadoop框架对job的资源调度以及job的监督管理主要靠jobtracker,这样对于容错性以及可扩展性都有很大的影响,同时,在1.x的版本中,基本上只支持MR的编程模式,这样的局限性还是很大的。由于这些原因,yarn的横空出世还是让人眼前一亮的。原创 2017-07-10 14:49:19 · 1151 阅读 · 0 评论 -
Hadoop之wordcount(Java 原生和Hadoop Streaming)
MapReduce示例:WordCount(Java原生) WordCount是hadoop最经典的一个词频统计方法,它很好的体现了MapReducede分合的思想,在集群中该方法的触发指令为: $hadoop jar xxx/xxx/wordcount.jar wordcount input_path output_path其中:·原创 2017-06-11 20:32:03 · 1239 阅读 · 0 评论 -
Hadoop benchmark测试及调参
Benchmark Job(hadoop测试) 在对本集群测试的过程中,我们用到了hadoop自带的测试函数,其中主要包括Teragen和Terasort两个方法。Teragen 该方法是用来生成随机数据的,其触发指令为: $hadoop jarxxx/xxx/benchmark.jar teragen -Dmapred.map.原创 2017-06-11 20:41:29 · 2366 阅读 · 0 评论 -
c++ 操作HDFS
如果由于业务需求无法用python、java以及命令行来操作HDFS,需要用c++的话,不用着急,libhdfs将是为你带来方便。Libhdfs是专门为c以及c++开发者提供的操作HDFS的API库,下面就是两个demo的介绍:向HDFS的文件中写数据从HDFS的文件中读数据向HDFS的文件中写数据 代码如下:#ifndef WRITE_H#define WR原创 2017-07-12 19:17:27 · 7747 阅读 · 3 评论