2021年03月_翁老师的教学团队

原创 Hadoop序列化案例实操

Hadoop 序列化案例实操1 需求与分析统计每一个手机号耗费的总上行流量、下行流量、总流量（1）输入数据1 13736230513 192.196.100.1 www.dev1.com 2481 24681 2002 13846544121 192.196.100.2 264 0 2003 13956435636 192.196.100.3 132 1512 2004 13966251146 192.168.100.1 240 0 4045 18271575951 192.168.1

2021-03-29 07:01:54 791 1

原创 Hadoop序列化开发流程

Hadoop序列化类型Hadoop序列化的流程在Hadoop框架内部传递一个bean对象，那么该对象就需要实现序列化接口。具体实现bean对象序列化步骤如下7步。（1）必须实现Writable接口（2）反序列化时，需要反射调用空参构造函数，所以必须有空参构造 public FlowBean() { super(); }（3）重写序列化方法@Overridepublic void write(DataOutput out) throws IOExceptio

2021-03-29 07:00:36 734

原创 Hadoop序列化概述

Hadoop序列化序列化概述》1 什么是序列化？序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储（持久化）和网络传输。反序列化就是将收到字节序列（或其他数据传输协议）或者是硬盘的持久化数据，转换成内存中的对象。》2 序列化有什么用？1：存储一般来说，内存中的对象在关机断电后就没有了。2：网络传输且内存中的对象只能由本地的进程使用，不能被发送到网络上的另外一台计算机。序列化可以存储内存中的对象，可以将内存中的对象发送到远程计算机。》3 Hadoop序列化有什么

2021-03-29 06:59:39 347

原创 MapReduce编程快速入门

MapReduce编程规范用户编写的程序分成三个部分：Mapper，Reducer，Driver(提交运行mr程序的客户端)Mapper阶段继承Mapper类（1）用户自定义的Mapper要继承自己的父类（2）Mapper的输入数据是KV对的形式（KV的类型可自定义）（3）Mapper中的业务逻辑写在map()方法中（4）Mapper的输出数据是KV对的形式（KV的类型可自定义）（5）map()方法（maptask进程）对每一个<K,V>调用一次Reducer阶段继承Reduce

2021-03-26 14:59:54 2670 4

原创 MapReduce核心思想

MapReduce核心思想MapReduce核心编程思想即分而治之需求：统计其中每一个单词出现的总次数(查询结果：a-p一个文件，q-z一个文件)1）分布式的运算程序往往需要分成至少2个阶段2）第一个阶段的MapTask并发实例，完全并行运行，互不相干3）第二个阶段的ReduceTask 并发实例互不相干，但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。4）MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段，如果用户的业务逻辑非常复杂，那就只能多个M

2021-03-26 14:41:28 1472

原创 MapReduce概述

MapReduce是什么?MapReduce是一个分布式运算程序的编程框架，是用户开发"基于Hadoop的数据分析应用"的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。分布式运算程序=MapReduce框架的组件+业务逻辑代码官方WordCount源码采用反编译工具反编译源码，发现WordCount案例有Map类、Reduce类和驱动类。且数据的类型是Hadoop自身封装的序列化类型MapR

2021-03-26 09:37:58 382

原创 DataNode（面试开发重点4）

Datanode多目录配置1．DataNode也可以配置成多个目录，每个目录存储的数据不一样。即：数据不是副本2．具体配置如下》1 修改hdfs-site.xmlvim ./hdfs-site.xml添加<property> <name>dfs.datanode.data.dir</name> <value>file:///${hadoop.tmp.dir}/dfs/data1,file:///${hadoop

2021-03-25 14:28:37 281

原创 DataNode（面试开发重点3）

5 退役旧数据节点让DateNode退役有两种方式：一，白名单二，黑名单可以通过白名单来添加节点，通过黑名单来删除节点不允许白名单和黑名单中同时出现同一个主机名称添加白名单添加到白名单的主机节点，都允许访问NameNode，不在白名单的主机节点，都会被退出。配置白名单的具体步骤如下：（1）在NameNode的/opt/module/hadoop-2.7.2/etc/hadoop目录下创建dfs.hosts文件cd /opt/module/hadoop-2.7.2/etc/hadoopv

2021-03-25 14:27:48 350

原创 DataNode（面试开发重点2）

4 服役新数据节点需求如何在原有集群基础上动态添加新的数据节点？以下操作使用dev1进行操作环境准备（1）在hadoop104主机上再克隆一台hadoop105主机（2）修改IP地址和主机名称（3）删除原来HDFS文件系统留存的文件（/opt/module/hadoop-2.7.2/data和log）（4）source一下配置文件source /etc/profile（5）在hadoop102修改/etc/hosts 文件sudo vim /etc/hostsscp

2021-03-24 15:54:12 1893 6

原创 DataNode（面试开发重点1）

1 DataNode工作机制》什么是心跳机制心跳机制是定时发送一个自定义的结构体(心跳包)，让对方知道自己还活着，以确保连接的有效性的机制。》心跳机制有什么用？检测死连接举个例子，A客户连着B服务器，但实际上是A->中间的网络设备C->B，如果是A到C断了，实际上B是无法知道的，因为B来说A的连接（就是C）还连着，心跳机制就解决了这个问题》DataNode工作机制[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pWikjdzL-161657233867

2021-03-24 15:53:16 441 3

原创 NameNode和SecondaryNameNode（面试重点六）

集群安全模式1.概述》1：什么是集群安全模式?集群安全模式是NameNode启动时的特殊运行模式。》2：有什么特点？当分布式文件系统处于安全模式的情况下，文件系统中的内容不允许修改也不允许删除（只读），直到安全模式结束在安全模式下，各个DataNode会向NameNode发送最新的块列表信息，NameNode了解到足够多的块位置信息之后，即可高效运行文件系》3：为什么要有运行模式安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性，同时根据策略必要的复制或者删除部分数据块

2021-03-24 15:22:55 1179 4

原创 NameNode和SecondaryNameNode（了解五）

NameNode多目录配置NameNode的本地目录可以配置成多个，且每个目录存放内容相同，增加了可靠性具体配置如下（1）在hdfs-site.xml文件中增加如下内容<property> <name>dfs.namenode.name.dir</name><value>file:///${hadoop.tmp.dir}/dfs/name1,file:///${hadoop.tmp.dir}/dfs/name2</value>

2021-03-22 16:28:29 279

原创 NameNode和SecondaryNameNode（重点四）

NameNode故障处理NameNode故障后，可以采用如下两种方法恢复数据。方法一：模拟NameNode停止并丢失元数据将SecondaryNameNode中数据拷贝到NameNode存储数据的目录；》1 kill -9 NameNode进程ID》2 删除NameNode存储的数据（/opt/module/hadoop-2.7.2/data/tmp/dfs/name） rm -rf /opt/module/hadoop-2.7.2/data/tmp/dfs/name/*从2NN复制元数

2021-03-22 15:06:06 389

原创 NameNode和SecondaryNameNode（重点三）

CheckPoint时间设置（1）通常情况下，SecondaryNameNode每隔一小时执行一次。[hdfs-default.xml]<property> <name>dfs.namenode.checkpoint.period</name> <value>3600</value></property>（2）一分钟检查一次操作次数，或者当操作次数达到1百万时，SecondaryNameNode执行一次。<p

2021-03-22 15:05:19 335

原创 NameNode和SecondaryNameNode（重点二）

Fsimage和Edits解析概念NameNode被格式化之后，将在/opt/module/hadoop-2.7.2/data/tmp/dfs/name/current目录中产生如下文件fsimage_0000000000000000000fsimage_0000000000000000000.md5seen_txidVERSION（1）Fsimage文件：HDFS文件系统元数据的一个永久性的检查点，其中包含HDFS文件系统的所有目录和文件inode的序列化信息。（2）Edits文件：存

2021-03-22 14:35:09 1311 2

原创 NameNode和SecondaryNameNode（重点一）

NN和2NN （面试重点）NN和2NN工作机制NN工作机制需要使用到两个文件》1：FsImage镜像文件Fsimage：NameNode内存中元数据序列化后形成的文件。》2：Edits 日志编辑文件Edits：记录客户端更新元数据信息的每一步操作（可通过Edits运算出元数据）。重启NameNode时，FsImage和Edits合并，合成元数据NN工作机制（1）第一次启动NameNode格式化后，创建Fsimage和Edits文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存

2021-03-19 15:16:11 717

原创 HDFS的数据流（面试重点）

HDFS写数据流程（面试重点）剖析文件写入1 客户端请求NameNode获取dn1,dn2,dn3》》1 客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。》》2 NameNode返回是否可以上传。》》3 客户端请求第一个 Block上传到哪几个DataNode服务器上。》》4 NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。2 客户端建立dn1,dn2,dn3的通道

2021-03-19 11:09:29 431

原创 HDFS客户端程序开发-HDFS的I/O流操作

HDFS客户端程序开发-HDFS的I/O流操作上面我们学的API操作HDFS系统都是框架封装好的。如果我们想自己实现上述API的操作该怎么实现呢？我们可以采用IO流的方式实现数据的上传和下载。HDFS文件上传1．需求：把本地e盘上的banhua.txt文件上传到HDFS根目录2．编写代码@Testpublic void putFileToHDFS() throws IOException, InterruptedException, URISyntaxException { // 1

2021-03-17 09:37:56 523 2

原创 HDFS客户端程序开发（开发重点）

HDFS客户端程序开发HDFS客户端环境准备》 1．根据自己电脑的操作系统选择对应的hadoop jar包将它拷贝到非中文路径并解压（例如：D:\Develop\hadoop-2.7.2）》 2．配置HADOOP_HOME环境变量》 3. 配置Path环境变量》 4．创建一个Maven工程HdfsClientDemo》 5．导入相应的依赖坐标+日志添加<dependencies> <dependency> <gr

2021-03-17 09:36:48 2637 7

原创 HDFS的shell操作（开发重点)

HDFS的shell操作（开发重点)1．基本语法bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令dfs是fs的实现类。2．命令大全bin/hadoop fs[-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp [-R] GRO

2021-03-15 15:12:39 1041 1

原创 Hdfs概述

Hdfs概述什么是hdfs?HDFS（Hadoop Distributed File System），它是一个文件系统有什么作用？》1：用于存储文件，通过目录树来定位文件》2：它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。HDFS的使用场景：适合一次写入，多次读出的场景，且不支持文件的修改。适合用来做数据分析，并不适合用来做网盘应用。为什么会有hdfs?背景：随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管

2021-03-15 15:11:42 534 3

原创完全分布式集群时间同步

完全分布式集群时间同步集群时间同步是什么?集群时间同步：找一个机器，作为时间服务器，所有的机器与这台集群时间进行定时的同步，比如，每隔十分钟，同步一次时间。为什么要做时间同步?随着集群节点数的增加，集群各节点之间时间不一致的问题会越来越严重，经常会引发故障，为避免类似问题出现，需要架设独立的时间同步服务器，并设置所有节点定时与时间服务器进行同步。如何完成集群时间同步?配置时间同步具体实操：1. 时间服务器配置必须root用户可者root权限（1）检查ntp是否安装什么是ntp?

2021-03-15 15:10:52 2030 4

原创完全分布式集群调用hdfs

调用集群hdfs（1）上传文件到集群上传小文件hdfs dfs -mkdir -p /user/dev1/inputhdfs dfs -put wcinput/words.txt /user/dev1/input上传大文件bin/hadoop fs -put /opt/software/hadoop-2.7.2.tar.gz /user/dev1/input（2）上传文件后查看文件存放在什么位置如何查找出数据块具体存放在datanode的哪个目录下?我们可以使用find指令进行查找s

2021-03-15 14:38:52 814

原创完全分布式集群群起

完全分布式集群群起群起的ssh准备群起的本质是由主节点调用子节点启动，此时，需要预先准备ssh设置免密登录以下操作使用dev1账户操作1. 配置ssh（1）基本语法ssh另一台电脑的ip地址（2）ssh连接时出现Host key verification failed的解决方法ssh 192.168.26.103The authenticity of host '192.168.26.103 (192.168.26.103)' can't be established.RSA key

2021-03-11 13:44:24 2339 16

原创完全分布式集群单点启动

完全分布式集群单点启动以下操作使用dev1账户操作（1）如果集群是第一次启动，需要格式化NameNode。如果格式化失败，需要检测之后先删除data文件夹，再格式化 hadoop namenode -format（2）在hadoop102上启动NameNode hadoop-daemon.sh start namenode jps（3）在hadoop102、hadoop103以及hadoop104上分别启动DataNode在hadoop102 hadoop-daemon.sh s

2021-03-10 17:13:43 917

原创完全分布式集群配置

完全分布式集群配置1 集群部署规划2.配置集群以下操作都使用dev1账户（1）HDFS配置文件配置hadoop-env.sh vim hadoop-env.shexport JAVA_HOME=/opt/module/jdk1.8.0_144（2）核心配置文件配置core-site.xml vim core-site.xml在该文件中编写如下配置<property> <name

2021-03-10 17:12:48 1372

原创完全分布式运行模式（开发重点)

完全分布式运行模式（开发重点）分析（1）准备3台客户机（关闭防火墙、静态ip、主机名称）（2）安装JDK（3）配置环境变量（4）安装Hadoop（5）配置环境变量（6）配置集群（7）单点启动（8）配置ssh（9）群起并测试集群虚拟机准备参考《环境搭建_虚拟机准备》https://blog.csdn.net/u013621398/article/details/114336149如果搭建集群要一次成功的话，则需要执行以下测试1 测试主机名hostname2 测试映射p

2021-03-09 17:20:09 1464 1

原创伪分布式配置历史服务器

伪分布式配置历史服务器1 配置历史服务器如果没有配置历史服务器，则不能查看程序运行的历史记录。为了查看程序的历史运行情况，需要配置一下历史服务器。具体配置步骤如下：1.配置mapred-site.xmlvim mapred-site.xml或者使用notepad++打开在该文件里面增加如下配置。<property><name>mapredu

2021-03-08 15:51:34 379

原创伪分布式yarn上运行mr程序

伪分布式yarn上运行mr程序1.分析（1）配置集群在YARN上运行MR（2）启动、测试集群增、删、查（3）在YARN上执行WordCount案例2.执行步骤（1）配置集群（a）配置yarn-env.sh配置一下JAVA_HOMEexport JAVA_HOME=/opt/module/jdk1.8.0_144（b）配置yarn-site.xml<!-- 指定YARN的ResourceManager的地址值是主节点的主机名如果主机名是hadoop101，那就配置had

2021-03-08 15:49:35 795

原创伪分布式下调用hdfs

伪分布式下调用hdfs已经使用dev1启动 NN,DN（a）在HDFS文件系统上创建一个input文件夹bin/hdfs dfs -mkdir -p /user/dev1/input注意：此命令操作的是集群里的文件，而不是本地Linux文件（b）将测试文件内容上传到文件系统上bin/hdfs dfs -put word.txt /user/dev1/input/（c）查看上传的文件是否正确bin/hdfs dfs -ls /user/dev1/input/bin/hdfs dfs

2021-03-08 15:46:24 777

原创伪分布式配置

伪分布式配置1 启动HDFS并运行MapReduce程序》 1. 分析（1）配置集群（2）启动、测试集群增、删、查（3）执行WordCount案例》 2. 执行步骤（1）配置集群（a）配置：hadoop-env.shLinux系统中获取JDK的安装路径：echo $JAVA_HOME得到/opt/module/jdk1.8.0_144修改hadoop-env.sh中的JAVA_HOME 路径：export JAVA_HOME=/opt/module/jdk1.8.

2021-03-05 08:47:46 1445 2

原创本地模式运行官方示例

本地模式运行官方示例官方Grep案例dev1账号下操作并保证当前文件目录属于dev10.在hadoop-2.7.2文件下查看llsudo chown -R dev1:dev1 /opt/module/创建在hadoop-2.7.2文件下面创建一个input文件夹 mkdir input将Hadoop的xml配置文件复制到input cp etc/hadoop/*.xml input执行share目录下的MapReduce程序bin/hadoop jar

2021-03-05 08:46:11 765 1

原创环境搭建_Hadoop安装

环境搭建_Hadoop安装0. Hadoop下载地址：https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/1.上传到software目录1.用SecureCRT工具将hadoop-2.7.2.tar.gz导入到opt目录下面的software文件夹下面2.进入到Hadoop安装包路径下cd /opt/software/3.解压安装文件到/opt/module下面tar -zxvf hadoop-2.7.2.tar.g

2021-03-05 08:45:17 1578 1

原创环境搭建_JDK安装

环境搭建_JDK安装1.尝试卸载现有JDK如果安装的版本低于1.7，卸载该JDKdev1下（1）查询是否安装Java软件：rpm -qa | grep java（2）卸载该JDK： sudo rpm -e 软件包（3）查看JDK安装路径：which java2.上传jdk安装包到linux1.上传jdk到software用SecureFX工具将JDK导入到opt目录下面的software文件夹下面2.解压JDK到/opt/module目录下tar -zxvf jdk-8u

2021-03-04 15:19:09 1644 1

原创环境搭建_虚拟机准备

搭建hadoop集群，首先要有符合要求的节点如果创建4台，则1个主节点，3个从节点，所以准备4个虚拟主机不同的节点有不同的静态ip与主机名节点之间需要关闭防火墙，因为各节点之间需要通信各节点使用相同的账号密码修改网卡 vim /etc/udev/rules.d/70-persistent-net.rules做3件事》1：删除eth0该行》2：将eth1修改为eth0》3：复制 ATTR{address}值 / 物理ip地址以下为文件内容 SUBSYSTEM=="net", AC

2021-03-03 21:25:20 3239 6

原创教学公告板

张院上课迟到问题张院上课的老师需要注意一下：》1：早上1，2节，上班高峰期，容易堵车》2：张院的门卫看通行证放行，如果被拦下来，只能走到教室，可能要15分钟以上。张院教室不能使用投影仪》可以在对应班群里面通知【有笔记本的同学带上笔记】》使用【vnc软件进行共屏】以下是软件的使用的【所有细节】以下是链接：https://pan.baidu.com/s/10gDrCRlXX6MnXBOWlBnGCQ 提取码：cjyv 复制这段内容后打开百度网盘手机App，操作更方便哦--来自百度网盘超

2021-03-03 10:24:16 378 2

vue电商网站后台管理系统模板.rar

jstl的两个jar.zip

apache-tomcat-8.5.56.zip

空空如也