mapReduce
花和尚也有春天
会收集一些不错的文章,时常品读,也学着自己总结一些东西,坚持努力的方向!
展开
-
MapReduce过程详解及其性能优化
https://blog.csdn.net/aijiudu/article/details/72353510转载 2020-09-29 00:06:27 · 285 阅读 · 0 评论 -
hadoop:MapReduce (Writable)输出结果中文乱码解决
hadoop涉及输出文本的默认输出编码统一用没有BOM的UTF-8的形式,但是对于中文的输出window系统默认的是GBK,有些格式文件例如CSV格式的文件用excel打开输出编码为没有BOM的UTF-8文件时,输出的结果为乱码,只能由UE或者记事本打开才能正常显示。因此将hadoop默认输出编码更改为GBK成为非常常见的需求。自定义 TextOutputFormat.class 子类TextOutputFormat.class 类代码展示:package com.ljt.hdfs;imp.原创 2020-05-09 02:58:45 · 1789 阅读 · 0 评论 -
hadoop:IDEA本地编写mapreducer的wordcount并测试,并上传到hadoop的linux服务器进行测试
直接上代码:package main.java;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io...原创 2020-05-04 17:53:44 · 632 阅读 · 0 评论 -
hadoop:HDFS/MapReduce/Yarn
主从节点来解决这种问题;*NameNode是主节点,存储文件的元数据如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在DataNode等;====》NameNode的元数据中的一部分存放在内存中的,在进程当中,另一部分存放在本地磁盘(fsimage:镜像文件和edits:编辑日志)*DataNode在本地文件系统存储文件块数据,以及块...原创 2019-05-26 19:35:08 · 340 阅读 · 0 评论 -
mapReduce:网站日志分析项目案例:数据清洗
一、数据情况分析1.1 数据情况回顾 该论坛数据有两部分: (1)历史数据约56GB,统计到2012-05-29。这也说明,在2012-05-29之前,日志文件都在一个文件里边,采用了追加写入的方式。 (2)自2013-05-30起,每天生成一个数据文件,约150MB左右。这也说明,从2013-05-30之后,日志文件不再是在一个文件里边。 图1展示了该日志数据的记录格...转载 2018-10-13 09:27:25 · 4355 阅读 · 0 评论 -
MapReduce:口述过程原理
MapReduce是一种并行可扩展计算模型,并且有较好的容错性,主要解决海量离线数据的批处理。实现下面目标:易于编程良好的扩展性 高容错性 MapReduce有哪些角色?各自的作用是什么? MapReduce由JobTracker和TaskTracker组成。JobTracker负责资源管理和作业控制,TaskTracker负责任务的运行。 程序执行流程图如下...转载 2018-09-22 10:58:36 · 1573 阅读 · 0 评论 -
MapReduce:原理 & Shuffle过程深入理解 & perfect
MapReduce执行过程1、设置input,告诉程序输入的数据在那儿。通过InputFormat接口子类(FileInputFormat, TextInputFormat),(1)读取数据(2)将数据转换成key-value形式交给Mapper的map()方法进行处理默认key=行偏移量(LongWritable),value=行数据(Text)//设置inputPath ...转载 2018-10-02 00:03:07 · 193 阅读 · 0 评论 -
MapReduce: 计数器(Counter)
一、MapReduce计数器是什么? 计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们可以在程序的某个位置插入计数器,记录数据或者进度的变化情况。二、MapReduce计数器能做什么? MapReduce 计数器(Counter)为我们提供一个窗口,用于观察 MapReduce Job 运行期的各种细节数据。对MapReduce性能调优很有帮助,MapRedu...转载 2018-09-15 13:08:38 · 1793 阅读 · 0 评论 -
MapReduce:中map和reduce的数量设置问题
原文:https://my.oschina.net/Chanthon/blog/150500map和reduce是hadoop的核心功能,hadoop正是通过多个map和reduce的并行运行来实现任务的分布式并行计算,从这个观点来看,如果将map和reduce的数量设置为1,那么用户的任务就没有并行执行,但是map和reduce的数量也不能过多,数量过多虽然可以提高任务并行度,但是太多的ma...转载 2018-09-15 12:58:21 · 9069 阅读 · 0 评论 -
MapReduce:word count 之通俗解释mr
1. 输入(input):如给定一个文档,包含如下四行:Hello JavaHello CHello JavaHelloC++2. 拆分(split):将上述文档中每一行的内容转换为key-value对,即:0 - Hello Java1 - Hello C2 – Hello Java3 - Hello C++3. 映射(map):将拆分之后的内容转换成...转载 2018-09-23 14:00:23 · 199 阅读 · 0 评论 -
MapReduce:用通俗易懂的大白话讲解MapReduce原理
Hadoop简介Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰富,包括ZooKeeper,Pig,Chukwa,Hive,Hbase,Mahout,flume等.这里详细分解这里面的概念让大家通过这篇文章了解到底是什么hadoop:1.什么是Map/R...转载 2018-09-16 15:48:40 · 374 阅读 · 0 评论 -
MapReduce:原理之Word Count 以及Java实现
MapReduce原理: Hadoop的分布式计算框架(MapReduce)-- 适合离线计算 核心思想: 移动计算而不移动数据。 MR是计算来自HDFS上的数据,可以看到,HDFS是大数据的存储,MR是大数据的计算。 MapReduce流程:input->Splitting->Mapping->Shuffling->Red...转载 2018-09-15 18:42:19 · 4793 阅读 · 0 评论