Hadoop2.x
十四不是八
这个作者很懒,什么都没留下…
展开
-
海量Web日志分析 用Hadoop提取KPI统计指标
Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。 从2转载 2016-02-23 19:34:14 · 440 阅读 · 0 评论 -
Hadoop 2.6 日志文件和MapReduce的log文件研究心得
学习演练Hadoop 2.6有一段日子了。现在才大致搞清楚了系统里面各个log的位置和功能,在这里总结一下。网上的资料并不丰富,甚至Google出来的结果也不是很满意,或许这个是太简单了,牛人都不屑来写。也可能是各个公司藏着掖着的东西。 Hadoop 2.6包含两个大部分:DFS和Yarn,而Yarn里面又包含在Resource Manager的JVM中运行的部分和在Node Manager转载 2016-02-23 18:56:52 · 2407 阅读 · 0 评论 -
yarn 日志聚集配置
. 日志聚集相关配置参数 日志聚集是YARN提供的日志中央化管理功能,它能将运行完成的Container/任务日志上传到HDFS上,从而减轻NodeManager负载,且提供一个中央化存储和分析机制。默认情况下,Container/任务日志存在在各个NodeManager上,如果启用日志聚集功能需要额外的配置。 (1) yarn.log-aggregation-enable转载 2016-02-25 17:20:15 · 1279 阅读 · 0 评论 -
Hadoop集群_MapReduce初级案例
1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。 1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。 样例输入如下所示: 1)file1:转载 2016-02-25 19:29:12 · 516 阅读 · 0 评论 -
Hadoop中Combiner的使用
在MapReduce中,当map生成的数据过大时,带宽就成了瓶颈,怎样精简压缩传给Reduce的数据,有不影响最终的结果呢。有一种方法就是使用Combiner,Combiner号称本地的Reduce,Reduce最终的输入,是Combiner的输出。下面以《Hadoop in action》中的专利数据为例。我们打算统计每个国家的专利数目。代码如下(使用Combiner的代码注释掉):转载 2016-02-26 14:39:37 · 401 阅读 · 0 评论 -
【Hadoop基础】hadoop fs 命令
1,hadoop fs –fs [local | ]:声明hadoop使用的文件系统,如果不声明的话,使用当前配置文件配置的,按如下顺序查找:hadoop jar里的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-site.xml。使用local代表将本地文件系统作为hadoop的转载 2016-02-29 15:53:02 · 248 阅读 · 0 评论