![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
大数据
班德尔第一小法
悦己之作,方能悦人
展开
-
Hadoop-28、Combiner
创建以下目录:GrouoingComparator.txt0000001 Pdt_01 222.80000002 Pdt_05 722.40000001 Pdt_02 33.80000003 Pdt_06 232.80000003 Pdt_02 33.80000002 Pdt_03 522.80000002 Pdt_04 122.4OrderBean.classpackage com.atguigu.groupingcomparator;import org.apache....原创 2020-06-02 21:20:50 · 159 阅读 · 0 评论 -
Hadoop-27、排序
创建以下目录FlowBean.classpackage com.atguigu.writablecomparable;import org.apache.hadoop.io.Writable;import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;public class FlowBea...原创 2020-06-01 21:47:46 · 140 阅读 · 0 评论 -
Hadoop-26、分区
现在将txt文档中的电话号码进行拆分phone_data.txt1 13736230513 192.196.100.1 www.atguigu.com 2481 24681 2002 13846544121 192.196.100.2 264 0 2003 13956435636 192.196.100.3 132 1512 2004 13966251146 192.168.100.1 240 0 4045 18271575951 192.168.100.2 www.atg..原创 2020-06-01 19:11:49 · 246 阅读 · 0 评论 -
Hadoop-25、MapReduce全流程
原创 2020-06-01 15:26:21 · 124 阅读 · 0 评论 -
Hadoop-24、MapReduce并行机制,自定义InputFormat代码
one.txtyongpeng weidong weinansanfeng luozong xiaomingtwo.txtlonglong fanfanmazong kailun yuhang yixinlonglong fanfanmazong kailun yuhang yixinthree.txtshuaige changmo zhenqiang dongli lingu xuanxuan创建如下目录:WholeFileDriver.classpa...原创 2020-06-01 10:41:22 · 161 阅读 · 0 评论 -
Hadoop-23、Hadoop序列化
准备处理的txt文档1 13736230513 192.196.100.1 www.atguigu.com 2481 24681 2002 13846544121 192.196.100.2 264 0 2003 13956435636 192.196.100.3 132 1512 2004 13966251146 192.168.100.1 240 0 4045 18271575951 192.168.100.2 www.atguigu.com 1527 2106 2...原创 2020-05-29 14:38:24 · 168 阅读 · 0 评论 -
Hadoop-22、打包在集群上运行
点击Maven,双击package打包成jar出现target文件夹,将选中的jar文件放在桌面上,并将名字改为1.jar打开Xshell,把这个har包放在hadoop下,直接从windows拖过去com.atguigu.wordcount.WcDriver为main程序,而/README.txt为集群上根文件上 然后输出到根文件下的ooutput...原创 2020-05-28 17:47:21 · 287 阅读 · 0 评论 -
Hadoop-22、第一个MapReduce--wordcount
依赖还是用之前的,在pom中添加,import changes<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>RELEASE</version> </depe...原创 2020-05-28 12:59:18 · 191 阅读 · 0 评论 -
Hadoop-21、MapReduce概论
依赖还是用之前的,在pom中添加,import changes<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>RELEASE</version> ...原创 2020-05-27 21:15:17 · 78 阅读 · 0 评论 -
Hadoop-21、HDFS 2.X新特性
原创 2020-05-27 16:12:50 · 106 阅读 · 0 评论 -
Hadoop-20、服役新节点,退役旧节点、多目录配置
可前往之前的Hadoop的前几个章节配置。白名单:设置那些人进来黑名单:设置那些人禁止进来最好使用黑名单进行退役原创 2020-05-27 15:13:24 · 159 阅读 · 0 评论 -
Hadoop-19、DN原理,校验和原理
原创 2020-05-26 22:40:55 · 156 阅读 · 0 评论 -
Hadoop-18、NN和2NN的关系
如果NN挂掉,2NN并不能直接顶替NN工作,因为它差一点小纸条edits_inprogress_002。原创 2020-05-26 21:44:21 · 647 阅读 · 0 评论 -
Hadoop-17、拓扑距离和机架感知
原创 2020-05-26 20:19:00 · 140 阅读 · 0 评论 -
Hadoop-16、HDFS上传、读写流程
首先准备上传的文件总共大小为200M,首先进行切分,先上传块一:128M,Client向Namenode申请上传文件许可,Namenode收到请求并且同意发送一个响应给Client,Client发送一个请求第一个Block,Namenode返回三个副本的DNS,此时Client打开FSDataOutputStream,输出流通过Namenode给的DNS,寻找对应的Datanode1、Datanode2、Datanode3,通过串联的方式请求建立通道,Datanode通过串联方式同意应答,此时FSData.原创 2020-05-26 19:30:55 · 172 阅读 · 0 评论 -
Hadoop-15、API(windows上传文档)
Create New Project在pom.xml上导入依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4原创 2020-05-23 09:36:35 · 169 阅读 · 0 评论 -
Hadoop-14、Windows的Hadoop环境配置
1原创 2020-05-06 10:30:24 · 155 阅读 · 0 评论 -
Hadoop-13、HDFS SHELL操作
将etc上传到根目录上,此时打开网页HDFS命令分类:删掉网页上的信息原创 2020-05-04 15:56:39 · 102 阅读 · 0 评论 -
Hadoop-12、HDFS概述
H:hadoopDFS:distributed file System原创 2020-05-04 10:55:03 · 125 阅读 · 0 评论 -
Hadoop-11、时间同步服务
使得几台服务器时间同步主要看第一行和第三行,否则就要手动安装查看ntpd是否开启现在需要停掉所有服务器的ntpd,在每一台服务器上输入以后所有的时间以Hadoop102为基准每隔一分钟...原创 2020-05-03 20:08:10 · 211 阅读 · 0 评论 -
Hadoop-10、历史服务器、日志聚集
在做配置部署的时候,只需要将装有NN和RM节点的虚拟机暂停即可。设置hadoop104为历史服务器点击History原创 2020-05-03 16:17:25 · 183 阅读 · 0 评论 -
9、无密登录配置
配置的原因:先决条件:java和ssh,要启动集群的脚本,就要配置ssh免密登录SSH是一种通信协议一直回车通过hadoop102发送给hadoop103到此实现了102到103的免密登录下面进行免密登录测试这个登录是单向的此时在hadoop103上操作:exit为退出slaves文件包含了hadoop配置的所有的从机打开slaves...原创 2020-05-02 16:12:40 · 157 阅读 · 0 评论 -
8、完全分布式配置:集群配置
DN一般与NM在一起由于现在资源有限,只能使用三台虚拟机在hadoop102上修改NameNode然后将这些文件分发过去注意:一定要在namenode机器上格式化出现successfully即可完成然后启动集群然后在其他机器上执行接下来查看...原创 2020-05-01 23:10:25 · 113 阅读 · 0 评论 -
7、完全分布式配置:快速分发Hadoop和Java
将xsync拷贝到/bin下(环境目录下),zjhe原创 2020-05-01 18:59:22 · 182 阅读 · 0 评论 -
6、完全分布式配置:分发脚本
远程登录102,直接将hadoop101配置好的hadoop安全拷贝至hadoop102rsyc是将所有的信息拷贝过来比起上面的手动靠背,下面通过一个脚本将要拷贝的文件拷贝到其他的虚拟机文件上#!/bin/bash#1 获取输入参数个数,如果没有参数,直接退出pcount=$#if ((pcount==0)); thenecho no args;exit;fi...原创 2020-04-29 23:32:33 · 189 阅读 · 0 评论 -
5、Yarn的伪分布式
现在切换资源调度器下面是旧版本的,新版本需要查看官网的例子还需要进入sbin目录才能启动点击Nodes能看到自己就成功了。browse the file system...原创 2020-04-27 17:09:59 · 111 阅读 · 0 评论 -
4、本地运行模式、伪分布式
**本地运行模式:运行在本机上**hadoop2.7官网例子,可直接复制This is userful for debugging编辑文件:配置完JAVA路径之后,测试一下(输出文件output一定要不存在,如果存在就要删掉 rm wcoutput/ -rf)查看当前运行的结果(相当于hello world!)现在只用了mapreduce,存储是在本地存...原创 2020-04-27 12:07:06 · 157 阅读 · 0 评论 -
3、安装Java和Hadoop
通过XSell连接hadoop101(详细步骤可见linux博客)原创 2020-04-25 11:15:25 · 123 阅读 · 1 评论 -
2、虚拟机配置
虚拟机准备JDK安装Hadoop安装Hadoop目录结构Hadoop官网手册原创 2020-04-17 21:48:53 · 267 阅读 · 0 评论 -
1、Hadoop介绍
Hadoop是什么Hadoop的发展历史Hadoop1.x和2.x区别Hadoop组成Hadoop大数据技术生态体系Hadoop推荐系统框架图原创 2020-04-06 20:40:52 · 69 阅读 · 0 评论