hadoop
文章平均质量分 74
hadoop
张国荣家的弟弟
你尽管善良,上天自有衡量
展开
-
Hadoop 分布式集群搭建(极度重点)
Hadoop 分布式集群搭建(极度重点)文章目录3.1 搭建目标3.2 搭建流程①、核心配置文件②、在集群上分发配置好的Hadoop配置文件③、集群单点启动3.3 启动集群3.1 搭建目标因为机子硬件的限制(这里 Cris 的电脑为 16G 内存),只好进行如下环境搭建实际上搭建完整的环境至少需要六台虚拟机,由于条件所限,这里就勉为其难的凑合成3台具体的各个组件的名称以及每个节点的 身份 这里不再介绍,如果不懂请 Google3.2 搭建流程101,102,103 号机子都有自己的 Java原创 2021-01-09 22:36:54 · 684 阅读 · 0 评论 -
Hadoop案例:Reduce join
文章目录输入数据期望结果需求分析自定OrderProductBeanMapper类Reducer类Driver类执行结果输入数据order.txt1001 01 11002 02 21003 03 31004 01 41005 02 51006 03 6pd.txt01 小米02 华为03 格力期望结果需求分析自定OrderProductBeanpackage com.mr.reducejoin;import org.apache.hadoop.io.Writ原创 2020-11-03 08:31:15 · 892 阅读 · 0 评论 -
hadoop案例:Mapjoin
文章目录pom.xml输入数据期望结果需求分析Mapper类Reducer类Driver类执行结果pom.xml<groupId>com.huang</groupId> <artifactId>Hadoop</artifactId> <version>1.0-SNAPSHOT</version> <build> <plugins> <plu原创 2020-11-03 08:30:47 · 840 阅读 · 0 评论 -
hadoop案例:groupcomparable(分组排序)
文章目录输入数据期望结果需求分析自定义OrderBean自定义OrderComparatorMapper类Reducer类Driver类执行结果输入数据group.txt0000001 Pdt_01 222.80000002 Pdt_05 722.40000001 Pdt_02 33.80000003 Pdt_06 232.80000003 Pdt_02 33.80000002 Pdt_03 522.80000002 Pdt_04 122.4期望结果期望输出数据1 222.82原创 2020-11-03 08:30:14 · 982 阅读 · 0 评论 -
hadoop案例:wordcountcombine(wordcount合并)
文章目录输入数据期望结果需求分析自定义WordcountCombinerMapper类Reducer类Driver类执行结果输入数据统计过程中对每一个MapTask的输出进行局部汇总,以减小网络传输量即采用Combiner功能hello.txtbanzhang ni haoxihuan hadoop banzhangbanzhang ni haoxihuan hadoop banzhang期望结果期望输出数据期望:Combine输入数据多,输出时经过合并,输出数据降低。需求分析自原创 2020-11-02 16:14:55 · 740 阅读 · 0 评论 -
hadoop案例:comparable(排序)
文章目录输入数据期望结果需求分析自定义PhoneFlowBeanMapper类Reducer类Driver类执行结果输入数据phone_data.txt1 13736230513 192.196.100.1 www.hadoop.com 2481 24681 2002 13846544121 192.196.100.2 264 0 2003 13956435636 192.196.100.3 132 1512 2004 13966251146 192.168.100.1 240原创 2020-11-02 15:58:14 · 1160 阅读 · 1 评论 -
hadoop案例:partition分区
文章目录输入数据期望结果需求分析自定义PhoneFlowBean自定义MyPartitionerMapper类Reducer类Driver类执行结果输入数据1 13736230513 192.196.100.1 www.hadoop.com 2481 24681 2002 13846544121 192.196.100.2 264 0 2003 13956435636 192.196.100.3 132 1512 2004 13966251146 192.168.100.1 240原创 2020-11-02 15:50:58 · 1171 阅读 · 0 评论 -
hadoop:MapReduce之 shuffle过程详解
文章目录shuffle概念为什么要在map reduce 之间加shuffle?combiner(合并)sort(排序)patittioner(分区)merger三种形式shuffle概念shuffle(洗牌之意),Shuffle描述着数据从map task输出到reduce task输入的这段过程.官方图片为什么要在map reduce 之间加shuffle?shuffle期望:完整的从map task 端拉去数据奥reduce端在跨节点拉去数据时,减少网络传输的消耗减少磁盘io对ta原创 2020-11-02 15:39:16 · 876 阅读 · 0 评论 -
hadoop案例:自定义outputformat
文章目录需求输入数据期望输出数据需求分析编写代码自定义FilterOutputFormat自定义FilterRecordWriterMapper类Reducer类Driver类执行结果需求过滤输入的log日志,包含hadoop的网站输出到e:/hadoop.log,不包含hadoop的网站输出到e:/other.log输入数据log.txthttp://www.baidu.comhttp://www.google.comhttp://cn.bing.comhttp://www.hadoop.原创 2020-11-02 15:38:33 · 501 阅读 · 0 评论 -
hadoop案例:自定义inputformat
文章目录需求输入数据期望输出数据需求分析编写代码自定义inputformat自定义WholeRecordReaderMapper类Reducer类Driver类执行结果 无论HDFS还是MapReduce,在处理小文件时效率都非常低,但又难免面临处理大量小文件的场景,此时,就需要有相应解决方案。可以自定义InputFormat实现小文件的合并需求将多个小文件合并成一个SequenceFile文件(SequenceFile文件是Hadoop用来存储二进制形式的key-value对的文件格式),Seq原创 2020-11-02 14:26:07 · 691 阅读 · 0 评论 -
hadoop案例:NLine (分行统计)
文章目录需求输入数据期望输出数据需求分析编写代码Mapper类Reducer类Driver类执行结果需求对每个单词进行个数统计,要求根据每个输入文件的行数来规定输出多少个切片。此案例要求每三行放入一个切片中。输入数据Nu.txtbanzhang ni haoxihuan hadoop banzhangbanzhang ni haoxihuan hadoop banzhangbanzhang ni haoxihuan hadoop banzhangbanzhang ni haoxih原创 2020-11-02 11:27:48 · 896 阅读 · 0 评论 -
hadoop案例:KeyValueTextInputFormat
文章目录输入数据期望结果需求分析Mapper类Reducer类Driver类输入数据文件 value.txtbanzhang ni haoxihuan hadoop banzhangbanzhang ni haoxihuan hadoop banzhang期望结果banzhang 2xihuan 2需求分析Mapper类package com.mr.keyvalue;import org.apache.hadoop.io.IntWritable;import org.a原创 2020-11-02 11:15:49 · 608 阅读 · 0 评论 -
Hadoop案例:序列化操作
把下面文件复制到文件:phone_data.txt1 13736230513 192.196.100.1 www.hadoop.com 2481 24681 2002 13846544121 192.196.100.2 264 0 2003 13956435636 192.196.100.3 132 1512 2004 13966251146 192.168.100.1 240 0 4045 18271575951 192.168.100.2 www.hadoop.com 15原创 2020-11-02 11:05:10 · 1299 阅读 · 0 评论 -
Hadoop 官方WordCount案例带你手把手的解析
package wordcount_hdfs;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;public class WordCountMapper extends Mapp原创 2020-10-21 16:21:18 · 2290 阅读 · 2 评论 -
第2章 Hadoop框架超详细讲解 (大数据)
文章目录从Hadoop框架讨论大数据生态1.hadoop是什么?2.hadoop发展历史3. hadoop 发行版本4.hadoop 的优势(4高)5.hadoop 组成5.1 HDFS 架构概述5.2 yarn 架构概述5.2 MapReduce 架构概述6.大数据技术生态体系推荐系统项目框架从Hadoop框架讨论大数据生态1.hadoop是什么?i.hadoop 是由apche 基金会所开发的一个分布式系统基础框架ii.主要解决数据存储和数据分析(海量的数据)iii.更广泛的说hadoop是指原创 2020-10-14 20:28:38 · 631 阅读 · 0 评论 -
第二章 HDFS 的命令操作
基本语法在配置hadoop 和jdk 的环境变量的情况下hadoop fs 显示具体命令(hdfs dfs 也可以)启动集群在这里我的集群已经启动-help输出这个命令的参数-mkdir 在hdfs 创建目录-moveFromLocal 从本地文件系统移动到hdfs-appendToFile 追加-cat 查看-chmod 改变权限-chown 改变所属组...原创 2020-10-13 20:37:47 · 361 阅读 · 0 评论 -
window 10 hadoop 集群搭建
文章目录window 10 hadoop 集群搭建Hadoop官网下载:相关单词安装和配置:解压配置环境变量:修改Hadoop里面的文件提示:window 10 hadoop 集群搭建在这里:我要讲一个自然道理,以后这种下载软件,安装包的情况很多很多,但是万变不离其中。注意特别单词,会认。慢慢找到自己的学习套路(自己独有的学习状态)Hadoop官网下载:https://hadoop.apa...原创 2020-04-04 21:55:01 · 1518 阅读 · 2 评论