![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
唐宋元明清qi
喜欢就要珍惜,珍惜就别放弃
展开
-
Hadoop程序运行全过程详解
以wordcount程序为例 一,文件输入阶段 将文件放到hdfs的input文件夹下,TextInputFormat类的inputSplit方法会将文件切分为一个个的split(切片),每个split的大小要尽量大但最好不要超过block(hdfs保存数据的基本单元,大小默认为64M,可以更改一般不超过128M)这是因为每个split对应一个map任务,split尽量大,split的数目就会原创 2017-05-10 19:51:57 · 1592 阅读 · 0 评论 -
Hadoop项目实战---黑马论坛日志分析
1、项目描述 通过对黑马技术论坛的apache common日志进行分析, 计算论坛关键指标,供运营者决策。 2、数据情况 每行记录有5部分组成: 1.访问ip 2.访问时间 3.访问资源【跟着两个访问的Url】 4.访问状态 5.本次流量 截取部分数据如下: 27.19.74.143 - - [30/May/2013:17:38:21 +0800] "G转载 2017-11-01 19:06:59 · 1340 阅读 · 1 评论 -
用通俗易懂的大白话讲解Map/Reduce原理
Hadoop简介 Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰富,包括ZooKeeper,Pig,Chukwa,Hive,Hbase,Mahout,flume等. 这里详细分解这里面的概念让大家通过这篇文章了解到底是什么hadoop:转载 2017-11-01 19:46:01 · 482 阅读 · 0 评论