hadoop
文章平均质量分 72
戴戴0204
这个作者很懒,什么都没留下…
展开
-
hadoop--01--hadoop的三个面试题
一:三个面试题面试题一:有一个非常大的文件,一台机器处理不了,存储的是ip每行一个,统计一下出现次数最多的那个ip。如果是小文件1)创建io流对这个文件进行读取,将读取的内容放在map集合中(ip,次数)2)循环遍历map集合,取出value最大的值大文件情况map集合,list集合,数组,set集合——-都是在内存进行操作的,文件过大会造成内存溢出,根本无法...原创 2018-07-14 11:53:37 · 266 阅读 · 0 评论 -
hadoop10--mapreduce组件之Combiner
CombinerCombiner 是 MapReduce 程序中 Mapper 和 Reducer 之外的一种组件,它的作用是在 maptask 之后给 maptask 的结果进行局部汇总,以减轻 reducetask 的计算负载,减少网络传输。使用Combiner 和 Reducer 一样,编写一个类,然后继承 Reducer,reduce 方法中写具体的 Combiner逻辑...原创 2018-08-14 19:38:38 · 294 阅读 · 0 评论 -
hadoop08--maptask、reducetask的并行度&数据倾斜问题
maptask的并行度1.maptask:运行map部分的任务,我们就叫做maptask。2.并行度:同时运行的maptask的任务的个数,一个maptask肯定只运行在一台节点上。3.例如文件大小是500M: 存储为三块: blk_1:0-128 blk_2:128-256 blk_3:256-384 blk_4:384-500启动一个maptask合适...原创 2018-08-14 16:10:50 · 867 阅读 · 0 评论 -
hadoop07--词频统计、级联删除、hdfs的文件读写、mapreduce的wordCount
hadoop中有自带的wordcount/home/hadoop/apps/hadoop-2.7.6/share/hadoop/mapreduce一:统计6个文件的单词和单词总数import java.io.BufferedReader;import java.io.FileNotFoundException;import java.io.FileReader;impor...原创 2018-08-14 14:52:36 · 678 阅读 · 0 评论 -
hadoop06--HDFS四大核心和两大机制
hdfs的四大核心和两大机制1.心跳机制:集群主从模式,主节点namenode,从节点datanode,datanode和namenode是需要通信的,通信通过心跳的方式进行通信的。datanode向namenode定期发送心跳报告,报告自己的存活状态,和自己存储的块信息。如果一个datanode宕机了,namenode怎么判定datanode一定宕机了?10次心跳报告收不到,如果...原创 2018-08-14 11:42:52 · 1584 阅读 · 0 评论 -
hadoop05-HDFS的api操作
环境配置eclipse配置hdfs的环境hadoop的插件hadoop-eclipse-plugin,放在eclipse的安装目录的plugins下配置本地hadoop的环境解压hadoop安装包配置windows下hadoop的环境变量 新建:HADOOP_HOME=hadoop的解压路径,我的是:HADOOP_HOME=C:\soft\hadoop-2.7.6...原创 2018-08-14 11:02:45 · 241 阅读 · 0 评论 -
hadoop02--大数据简介&hadoop简介和伪分布式、完全分布式集群搭建
二:大数据简介数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材。 数据可以是连续的值,比如声音、图像,称为模拟数据。也可以是离散的,如符号、文字,称为数字数据。数据的分类从结构上可以分为 - 结构化数据:如:二维表 - 半结构化数据:如:xml、html、css - 非结构数据:如:图片、音频、视频等数据的来源...原创 2018-07-14 15:15:28 · 723 阅读 · 4 评论 -
hadoop--04--HDFS设计思想&主要框架&常用命令
hdfs:hadoop distributed file system分布式文件系统一、设计思想1.分块存储举个例子,如有有100T文件,存在3个节点,怎么存?100T存在一个节点上吗?直接存储在一台机器上 合理吗?不合理!负载不均衡。我们可以将100T分成多个部分进行存储,分块存储。每个部分(块)应该分很多合适?1T,如果文件只有2T,分成2个块,还是负载不均衡! 如果...原创 2018-07-14 11:54:43 · 458 阅读 · 2 评论 -
hadoop--03--集群搭建常见问题&集群安装的五种模式
一:搭建hadoop常见问题查看集群启动日志存放集群的日志信息位置在hadoop-2.7.6安装目录下的logs ,比如我的在:/home/hadoop/apps/hadoop-2.7.6/logs 日志文件名字含义:hadoop(进程归属)-hadoop(用户名)-datanode(进程名)-hadoop01(节点).logstart-dfs.sh获取start...原创 2018-07-14 11:54:19 · 357 阅读 · 0 评论 -
hadoop11--mapreduce全局计数器
全局计数器计数器是用于记录job运行状态和进度的 类似于job运行的一个报告。 统计job运行过程中的各个参数,包括job的输入数据量 输出数据量,map输入的数据条数,reduce分组数等等。其作用范围是全局的,假设运行3个maptask任务, 计数器统计的是3个maptask任务的总和的内置计数器Hadoop其实内置了很多计数器。我们先看下运行一个mr程序出来的报告。...原创 2018-08-14 20:01:51 · 630 阅读 · 2 评论