Hadoop集群部署(三个节点)

一、搭建Hadoop3.X

1.1 配置服务器

1个主节点:centos100(192.168.65.128),

2个(从)子节点:centos101(192.168.65.129),centos102(192.168.65.130)

1.2 配置主节点名

192.168.65.128    vi /etc/sysconfig/network

添加内容:

NETWORKING=yes

HOSTNAME=centos100

1.3 配置两台子节点名

192.168.65.129   vi /etc/sysconfig/network

添加内容:

NETWORKING=yes

HOSTNAME=centos101

 

192.168.65.130   vi /etc/sysconfig/network

添加内容:

NETWORKING=yes

HOSTNAME=centos102

 

1.4 配置hosts

打开主节点的hosts文件,要将文件的前两行注释掉 (注释当前主机的信息)并在文件中添加所有hadoop集群的主机信息。

 

vi /etc/hosts

添加内容:

192.168.65.128 centos100

192.168.65.129 centos101

192.168.65.130 centos102

 

保存之后,将主节点的hosts分别拷贝到其他两个子节点

scp /etc/hosts root@192.168.65.129:/etc/

scp /etc/hosts root@192.168.65.130:/etc/

 

然后分别执行(重启服务器也可以不执行下面的语句): /bin/hostsname hostsname

例如:master上执行 /bin/hostsname master,使之生效。

1.5 配置ssh无密码访问

1.5.1生成公钥密钥对

1、在每个节点上分别执行:

ssh-keygen -t rsa

一直按回车直到生成结束

执行结束之后每个节点上的/root/.ssh/目录下生成了两个文件 id_rsa 和 id_rsa.pub

其中前者为私钥,后者为公钥

 

 

2、在主节点上执行:

cp id_rsa.pub authorized_keys

1.5.2 生成authorized_keys

这里的配置方式可以有多种操作步骤,本次选择在主节点上生成authorized_keys,其最终目的是每个节点上的/root/.ssh/authorized_keys文件中都包含所有的节点生成的公钥内容。

 

1、将两个子节点的公钥拷贝到主节点上,分别在两个子节点上执行:

scp /root/.ssh/id_rsa.pub root@centos128:/root/.ssh/id_rsa_centos101.pub

scp /root/.ssh/id_rsa.pub root@centos128:/root/.ssh/id_rsa_centos102.pub

 

2、然后在主节点上,将拷贝过来的两个公钥合并到authorized_keys文件中去

主节点上执行:

cat id_rsa_centos101.pub>> authorized_keys

cat id_rsa_centos102.pub>> authorized_keys

 

3、最后测试是否配置成功

在centos100上分别执行

ssh centos101

ssh centos102

 

能正确跳转到两台子节点的操作界面即可,同样在每个子节点通过相同的方式登录主节点和其他子节点也能无密码正常登录就表示配置成功。

1.5.3 复制authorized_keys

主节点上用scp命令将authorized_keys文件拷贝到子节点的相应位置

scp authorized_keys root@centos101:/root/.ssh/

scp authorized_keys root@centos102:/root/.ssh/

1.6 安装jdk

1.6.1 卸载jdk

1、查看系统已经装的jdk:

rpm -qa|grep jdk

 

2、卸载jdk:

rpm -e --nodeps copy-jdk-configs-3.3-2.el7.noarch

rpm -e --nodeps java-1.8.0-openjdk-headless-1.8.0.161-2.b14.el7.x86_64

rpm -e --nodeps java-1.7.0-openjdk-1.7.0.171-2.6.13.2.el7.x86_64

rpm -e --nodeps java-1.8.0-openjdk-1.8.0.161-2.b14.el7.x86_64

rpm -e --nodeps java-1.7.0-openjdk-headless-1.7.0.171-2.6.13.2.el7.x86_64

1.6.2 安装JDK

三台机器都要安装

 

1、创建目录

cd /

cd /opt/

mkdir java

cd java

rz

 

2、下载JDK

 

3、解压JDK : tar -zxvf jdk-8u73-linux-x64.gz

 

4、配置环境变量

vi /etc/profile

在profile文件末尾添加以下代码:

export JAVA_HOME=/opt/java/jdk1.8.0_73

export JRE_HOME=$JAVA_HOME/jre

export PATH=$JAVA_HOME/bin:$PATH

export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib

 

5、环境变量生效:

source /etc/profile

 

6、测试是否安装成功:java –version

1.7 安装hadoop

在master主机上安装hadoop

安装位置自定,例如安装在/usr/tools目录下面

 

1、下载hadoop包,放在/usr/tools目录下

 

2、解压hadoop

tar -zxvf hadoop-3.0.0tar.gz

在usr下面生成hadoop-3.0.0目录

 

3、配置环境变量:

vi /etc/profile

在末尾添加:

export HADOOP_HOME=/usr/tools/hadoop-3.0.0

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

4、环境变量生效:

source /etc/profile

1.8 配置hadoop

1.8.1配置hadoop配置文件

需要配置的文件的位置为/hadoop-3.0.0/etc/hadoop,需要修改的有以下几个

hadoop-env.sh

yarn-env.sh

core-site.xml

hdfs-site.xml

mapred-site.xml

yarn-site.xml

workers

其中

hadoop-env.sh和yarn-env.sh里面都要添加jdk的环境变量:

1、hadoop-env.sh中添加:

export JAVA_HOME=/opt/java/jdk1.8.0_73

2、yarn-env.sh中(Hadoop3.X版本无需配置这个)

export HADOOP_YARN_USER=${HADOOP_YARN_USER:-yarn}

export YARN_CONF_DIR="${YARN_CONF_DIR:-$HADOOP_YARN_HOME/conf}"

 

export JAVA_HOME=/opt/java/jdk1.8.0_73

 

3、core-site.xml中

<configuration>

         <property>

                   <name>fs.defaultFS</name>

                   <value>hdfs://centos100:9000</value>

         </property>

         <property>

                   <name>io.file.buffer.size</name>

                   <value>131072</value>

         </property>

         <property>

                  <name>hadoop.tmp.dir</name>

                   <value>file:/usr/temp</value>

         </property>

         <property>

                   <name>hadoop.proxyuser.root.hosts</name>

                   <value>*</value>

         </property>

         <property>

                   <name>hadoop.proxyuser.root.groups</name>

                   <value>*</value>

         </property>

</configuration>

 

4、hdfs-site.xml中

<configuration>

         <property>

                   <name>dfs.namenode.secondary.http-address</name>

                   <value>master:9001</value>

         </property>

         <property>

                   <name>dfs.namenode.name.dir</name>

                   <value>file:/usr/dfs/name</value>

         </property>

         <property>

                   <name>dfs.datanode.data.dir</name>

                   <value>file:/usr/dfs/data</value>

         </property>

 

         <property>

                   <name>dfs.replication</name>

                   <value>2</value>

         </property>

         <property>

                   <name>dfs.webhdfs.enabled</name>

                   <value>true</value>

         </property>

         <property>

                   <name>dfs.permissions</name>

                   <value>false</value>

         </property>

         <property>

                   <name>dfs.web.ugi</name>

                   <value>supergroup</value>

         </property>

</configuration>

 

5、mapred-site.xml中先cp mapred-site.xml.template mapred-site.xml

<configuration>

         <property>

                   <name>mapreduce.framework.name</name>

                   <value>yarn</value>

         </property>

         <property>

                   <name>mapreduce.jobhistory.address</name>

                   <value>centos100:10020</value>

         </property>

         <property>

                   <name>mapreduce.jobhistory.webapp.address</name>

                   <value>centos100:19888</value>

         </property>

</configuration>

 

6、yarn-site.xml中

<configuration>

         <property>

                   <name>yarn.nodemanager.aux-services</name>

                   <value>mapreduce_shuffle</value>

         </property>

         <property>

                   <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

                   <value>org.apache.hadoop.mapred.ShuffleHandler</value>

         </property>

         <property>

                   <name>yarn.resourcemanager.address</name>

                   <value>centos100:8032</value>

         </property>

         <property>

                   <name>yarn.resourcemanager.scheduler.address</name>

                   <value>centos100:8030</value>

         </property>

         <property>

                   <name>yarn.resourcemanager.resource-tracker.address</name>

                   <value>centos100:8031</value>

         </property>

         <property>

                   <name>yarn.resourcemanager.admin.address</name>

                   <value>centos100:8033</value>

         </property>

         <property>

                   <name>yarn.resourcemanager.webapp.address</name>

                   <value>centos100:8088</value>

         </property>

</configuration>

 

7、workers中

centos100

centos101

centos102

1.8.2 拷贝hadoop安装文件到子节点

主节点上执行:

scp -r /usr/tools/hadoop-3.0.0 root@centos101:/usr/tools

scp -r /usr/tools/hadoop-3.0.0 root@centos102:/usr/tools

 

拷贝profile到子节点

主节点上执行:

scp /etc/profile root@centos101:/etc/

scp /etc/profile root@centos102:/etc/

在两个子节点上分别使新的profile生效:

source /etc/profile

1.8.3 格式化主节点的namenode

主节点上进入hadoop-3.0.0目录

 

然后执行:

./bin/hadoop namenode -format

新版本用下面的语句不用hadoop命令了

./bin/hdfs namenode -format

提示:successfully formatted表示格式化成功

1.8.4 启动hadoop

主节点上在hadoop-3.0.0目录下执行:

./sbin/start-all.sh

 

主节点上jps进程有:6个

DataNode

Jps

SecondaryNameNode

NameNode

ResourceManager

NodeManager

 

每个子节点上的jps进程有:3个

Jps

DataNode

NodeManager

如果这样表示hadoop集群配置成功

 

 

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
目录 1 ...........................................................................................................................4 概述 1.1 ..................................................................................................4 什么是Hadoop? 1.2 .......................................................................................4 为什么要选择Hadoop? 1.2.1 ........................................................................................................4 系统特点 1.2.2 ........................................................................................................5 使用场景 2 ...........................................................................................................................5 术语 3 ....................................................................................................6 Hadoop的单机部署 3.1 .....................................................................................................................6 目的 3.2 ..............................................................................................................6 先决条件 3.2.1 ........................................................................................................6 支持平台 3.2.2 ........................................................................................................6 所需软件 3.2.3 ........................................................................................................6 安装软件 3.3 .....................................................................................................................7 下载 3.4 ................................................................................7 运行Hadoop集群的准备工作 3.5 ............................................................................................7 单机模式的操作方法 3.6 .....................................................................................8 伪分布式模式的操作方法 3.6.1 ................................................................................................................8 配置 3.6.2 ................................................................................................9 免密码ssh设置 3.6.3 ................................................................................................................9 执行 4 .......................................................................................11 Hadoop集群搭建过程手记 4.1 .................................................................................................12 免密码SSH设置 4.2 ................................................................................................12 Hadoop软件安装 4.3 ..................................................................................................13 Master(85)配置 4.4 .........................................................................................14 Slave(60,245上)配置 4.5 ..................................................................................15 初始化和启动hadoop集群 4.5.1 ............................................................................................15 初始化文件系统 4.5.2 .................................................................................................15 启动Hadoop 4.5.3 .................................................................................................17 停止Hadoop 4.6 ...................................................................................................................17 测试 4.7 .................................................................................................19 管理界面与命令 4.7.1 ........................................................................................19 hdfs运行状态界面 4.7.2 .........................................................................20 Map-reduce的运行状态界面 4.7.3 ........................................................................................20 直接的命令行查看 4.7.1 ............................................................................................21 运行的进程查看 5 ..................................................................................................................22 架构分析 5.1 .................................................................................................................22 HDFS 5.1.1 ..................................................................................23 HDFS的三个重要角色 5.1.2 .............................................................................................24 HDFS设计特点 5.2 .......................................................................................................25 MapReduce www.linuxidc.com Linux公社(LinuxIDC.com) 是包括Ubuntu,Fedora,SUSE技术,最新IT资讯等Linux专业类网站。 5.2.1 ......................................................................................................25 算法介绍 5.2.2 ........................................................................27 Hadoop框架下的mapreduce 5.3 .....................................................................................................28 综合架构分析 6 .........................................................................................................37 Hadoop的应用 7 ..................................................................................................................38 系统维护 7.1 ............................................................................................38 Hadoop的系统监控 7.2 Hadoop中的命令(Command)总结.....................................错误!未定义书签。 7.3 ..............................................................38 NameNode与JobTracker单点故障说明 7.4 ............................................................................................................39 经验总结 7.5 .......................................39 如何在一个hadoop集群新增或删除一些机器而不重启 7.5.1 ......................................................................................................39 新增节点 7.5.2 ......................................................................................................40 删除节点 7.6 ..............................................................................................42 其它日常问题说明 7.6.1 ..............42 datanode启动失败,各slave节点的namespaceIDs与masters不同 7.6.2 .............................................................43 taskTracker和jobTracker 启动失败 7.6.3 ...43 Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out 7.6.4 ...............................................................................44 Too many fetch-failures 7.6.5 ..................................44 能够启动datanode,但无法访问,也无法结束的错误 7.6.6 ................................................44 java.io.IOException: Could not obtain block: 7.6.7 ..........................................44 java.lang.OutOfMemoryError: Java heap space 7.6.8 ........................................................45 解决hadoop OutOfMemoryError问题: 7.6.9 .......................................................................45 Hadoop java.io.IOException: 7.7 .......................................................................................45 防火墙的端口开放要求 7.7.1 ....................................................................45 与HDFS有关的地址及端口属性 7.7.2 .........................................................46 与MapReduce 有关的地址及端口属性 8 .........................................................................................................................47 附录 8.1 .......................................................................................................47 hadoop历史 8.2 ...................................................................................................49 Hadoop大记事 8.3 .................................................................................49 Hadoop几个主要子项目 8.4 ..............................................................................................50 官方集群搭建参考 8.4.1 ......................................................................................................50 配置文件 8.4.2 ...............................................................................................50
⼤数据学习计划 ⼤数据学习计划 ⼤数据如此⽕热的现在,想必许多⼩伙伴都想要加⼊这个⾏业。也是我们今天就要拿出收藏已久的⼤数据学习计划。帮助你不⾛弯路,迈向 ⼤数据 1 ⼤数据应⽤离不开基础软件的⽀撑,且⼤部分⼤数据组件部署在 Linux 操作系统上的⽤户空间,也有很多组件也借鉴了Linux 操作系统的⼀ 些设计精髓,所以 Linux 既是⼤数据的强⼒⽀撑,也是很多性能问题的⽀撑者。 同时数据库的相关知识也是必要的基础,熟悉 MySQL 数据库的安装与部署,还有备份和恢复等都是重点。 所以在第⼀部分的学习中我们需要达到以下⽬标: 1、通过对 Linux 操作系统体系结构、 服务管理、包管理、NTP 协议时间 服务器、关系型数据库理论和 MySQL 数据库等相关知识的学习, 掌握⼤部分安装部署 Hadoop 集群操作系统层⾯的技能,为后续搭建 Hdoop 集群、对 ⽐ RDBMS 与 NoSQL 数据库打基 础。 2、通过对 Linux ⽂件系统、(⼤数据学习群142974151】内核参数、内存结构、以及 Java 虚 拟机等相关知识的学习,为后续学习分布式 ⽂件系统, Hadoop 集群优化扫清操作系统层 ⾯知识的障碍 2 Hadoop 由许多元素构成。其最底部是HDFS,它存储 Hadoop 集群中所有存储节点上的⽂件。HDFS(对于本⽂)的上⼀层是MapReduce 引 擎,通过对Hadoop分布式计算平台最核⼼的分布式⽂件系统HDFS、MapReduce处理过程,以及数据仓库⼯具Hive和分布式数据库Hbase 的介绍,基本涵盖了Hadoop分布式平台的所有技术核⼼。 还有Flume是Cloudera提供的⼀个⾼可⽤的,⾼可靠的,分布式的海量⽇志采集、聚合和传输的系统,Flume⽀持在⽇志系统中定制各类数 据发送⽅,⽤于收集数据。在⼤数据中也起到⼀定作⽤。 本模块通过学习HDFS,YARN(MapReduce)Spark 等核 ⼼组件,了解Hadoop 的基本运⾏框架。 所以在第⼆部分的学习中我们需要达到以下⽬标: 1、 搭建单节点模拟分布式集群,熟悉 HDFS 命令; 掌握 HDFS 体系结 构,读写流程,能 dump HDFS 元 数据⽂件; 理解 Flume 组件架构, 并能⽤ Flume 向 HDFS 平台导⼊⽂ 本⽇志; 2、 搭建多节点、可扩展集群; 部署 HDFS HA 架构; 理解并实现 Hadoop YARN 的多 租户架构 掌握 Zookeeper 组件原理; 掌握 Hadoop 集群优化路径; 3 传统数据仓库在⾯对更⼤规模数据时显得⼒不从⼼,在寄希望于⼤数据平台时,MapReduce 编程门槛让很多数据分析师望⽽却步,⽽Hive 是基于Hadoop的⼀个数据仓库⼯具,可以将结构化的数据⽂件映射为⼀张数据库表,并提供简单的sql查询功能,可以将sql语句转换为 MapReduce任务进⾏运⾏。 其优点是学习成本低,⼤数据学习kou群74零零加【41三⼋yi】可以通过类SQL语句快速实现简单的 MapReduce统计,不必开发专门的MapReduce应⽤,⼗分适合数据仓库的统计分析。 本模块通过学习 Hive、Impala 等⼤数据 SQL 分析组件,让⽤户将隐匿在泥沙之下的数据价值挖掘出来。 所以在第三部分的学习中我们需要达到以下⽬标: 1、 安装部署 Hive; 理解 Hive 架构及执⾏原理 ; Hive 的优化(分区、桶) ; Hive SQL 语句优化; Hive 常见故障诊断; 4 在上个模块中,OLAP 类型的需求得到了很好的解决⽅案,即针对数据查询分析的应⽤。但是这些组件对于数据的随机删改并不擅长。针对 此种 OLTP 类型应⽤,⼤数据⽣态系统中有另外⼀类 组件处理这样的问题,那就是 NoSQL 家族。这部分将介绍 NoSQL 的数据模型和分 类,着重讲述最具代表的 HBase。 ZooKeeper是⼀个分布式的,开放源码的分布式应⽤程序协调服务,,是Hadoop和Hbase的重要组件。它是⼀个为分布式应⽤提供⼀致性 服务的软件,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。在本部分也会涉及。 所以在第四部分的学习中我们需要达到以下⽬标: 1 理解HBase 体系结构⽔平扩展的 优势; 部署 HBase ; 设计 HBase 表; 在这⾥我还是要推荐下我⾃⼰建的⼤数据学习交流qq裙: 142974151, 裙 ⾥都是学⼤数据开发的,如果你正在学习⼤数据 ,欢迎你加⼊, ⼤家都是软件开发党,不定期分享⼲货(只有⼤数据开发相关的),包括我⾃⼰整理的⼀份2019最新的⼤数据进阶资料和⾼级开发教程,欢 迎进阶中和进想深⼊⼤数据的⼩伙伴 2 理解 zookeeper 在 HBase集群
第一天 hadoop的基本概念 伪分布式hadoop集群安装 hdfs mapreduce 演示 01-hadoop职位需求状况.avi 02-hadoop课程安排.avi 03-hadoop应用场景.avi 04-hadoop对海量数据处理的解决思路.avi 05-hadoop版本选择和伪分布式安装.avi 06-hadoop版本选择和伪分布式安装2.avi 07-hdfs&mapreduce;测试.avi 08-hdfs的实现机制初始.avi 09-hdfs的shell操作.avi 10-hadoop集群搭建的无密登陆配置.avi 第二天 hdfs的原理和使用操作、编程 01-NN元数据管理机制.avi 02-NN工作机制2.avi 03-DN工作原理.avi 04-HDFS的JAVA客户端编写.avi 05-filesystem设计思想总结.av i 06-hadoop中的RPC框架实现机制.avi 07-hadoop中的RPC应用实例demo.avi 08-hdfs下载数据源码跟踪铺 垫.avi 09-hdfs下载数据源码分析-getFileSystem.avi 10-hdfs下载数据源码分析-getFileSystem2.avi 第三天 mapreduce的原理和编程 01-hdfs源码跟踪之打开输入流.avi 02-hdfs源码跟踪之打开输入流总结.avi 03-mapreduce介绍及wordcount.avi 04-wordcount的编写和提交集群运行.avi 05-mr程序的本地运行模式.avi 06-job提交的逻辑及YARN框架的技术机制.avi 07-MR程序的几种提交运行模式.avi 08-YARN的通用性意义.avi 09-yarn的job提交流程.avi 第四天 常见mr算法实现和shuffle的机制 01-复习.avi 02-hadoop中的序列化机制.avi 03-流量求和mr程序开发.avi 04-hadoop的自定义排序实现.avi 05-mr程序中自定义分组的实现.avi 06-shuffle机制.avi 07-mr程序的组件全貌.avi 08-textinputformat对切片规划的源码分析.avi 09-倒排索引的mr实现.avi 10-多个job在同一个main方法中提交.avi 第五天 hadoop2.x中HA机制的原理和全分布式集群安装部署及维护 01-zookeeper.avi 02-zookeeper2.avi 03-NN高可用方案的要点1.avi 04-hadoop-HA机制的配置文件.avi 05-hadoop分布式集群HA模式部署.avi 06-hdfs--HA测试.avi 07-hdfs--动态增加节点和副本数量管理.avi 08-HA的java api访问要点.avi 09-hive入门.avi 第六天 hbase hive 01-复习ha相关.avi 02-hive的元数据库mysql方式安装配置.avi 03-hive的使用.avi 04-hive的常用语法.avi 05-hql语法及自定义函数.avi 06-hbase表结构.avi 07-hbase集群架构及表存储机制.avi 08-hbase-shell.avi 09-hbase的java api.avi 第七天 storm+kafka 006-kafka整合storm.avi 01-storm基本概念.avi 02-storm编程规范及demo编写.avi 03-storm的topology提交执行.avi 04-kafka介绍.avi 05-kafuka集群部署及客户端编程.avi 06-kafka消费者java客户端编程.avi 第八天 实战项目 01-项目背景及技术架构.avi 02-主要技术选型.avi 03-flume介绍及演示.avi 04-行为轨迹增强处理流程.avi 05-样本url筛选模块开发.avi 06-行为轨迹增强模块1.avi 07-行为轨迹增强模块2.avi
本资源为大数据基础到中高级教学资源,适合稍微有点大数据或者java基础的人群学习,资源过大,上传乃是下载链接,不多说,上目录: 1_java基础2 l3 a2 a$ t7 J2 b+ `- p 2_java引入ide-eclipse 3_java基础知识-循环-类型转换 4_循环-函数-数组-重载 5_多为数组-冒泡-折半-选择排序 6_oop-封装-继承-static-final-private 7_多态-接口-异常体系 8_适配器/ k% N! Y7 j/ |- c) O5 M' V6 S 9_多线程-yield-join-daemon-synchronized; o, E; \* I: E2 W 10_多线程-同步代码块-同步方法 11_多线程-生产消费问题 12_多线程-死锁问题 13_字符集问题' X4 e; v9 q' U2 W% f" l7 f$ F 14_String-StringBuffer-StringBuilder 15_集合-list-arrayList-linkedlist 16_集合-hashset-hashmap-迭代器-entryset$ d3 b$ ~5 b! @- Z* }- C 17_快捷键设置* L* C. y4 Z1 v0 p) [8 p3 A 18_IO& f, H- i' w( B; P% V; Q" z. L( n/ q 19_IO2 20_文件归档和解档 21_TCP+udp协议-广播 22_UDP实现屏广程序-教师端3 m7 l; D) p! p$ q' H- L5 t1 s 23_UDP实现屏广程序-教师端2% |) h# a9 r) z6 b 24_GOF-设计模式$ k0 Y6 b) s& m% J 25_qq消息通信2 T! n* ^2 ? | l# ]- ^ 26_qq消息通信2 27_qq消息通信-群聊 28_qq消息通信-群聊-手动刷新好友列表-下线通知0 P+ D" ]/ f. q* O! d9 Z& L 29_qq消息通信-群聊-私聊消息' a3 S6 a2 d+ Y6 s( Z 30_qq消息通信-群聊-私聊消息2 31_虚拟机内存结构-反射 32_虚拟机内存结构-JVM-$ j; l* n7 g' u 33_代理模式 34_RDBMS 35_MySQL安装' `/ h# t# o# s& y1 \# ?* R5 f) p4 Z 36_MySQL常用命令-CRUD 37_java JDBC-insert 38_java JDBC-sql注入问题-preparedstatemnt 39_java 事务管理-批量插入0 X, w! w5 [- E( `( f* V1 [ 40_java事务管理-批量插入-存储过程 41_java mysql 函数 42_java mysql LongBlob + Text类型8 @9 ^) y7 s* L, _3 w7 Q9 q9 ^ 43_连接查询2 R: d" J9 J1 O3 D* B1 }2 u( {2 v 44_事务并发现象-脏读-幻读-不可重复读-隔离级别 45_隔离级别-并发现象展示-避免 46_表级锁-行级锁-forupdate 47_mysql数据源连接池 48_NIO" d% v1 P# ~3 S/ L 49_NIO程序- u5 T2 a5 N" {! @8 q4 c 50_Vmware安装-client centos7机安装2 Q. l/ r7 y) ^% n8 |4 _. k 51_centos文件权限-常用命令 52_网络静态ip-NAT连接方式-YUM安装, e9 j% z; B' ?! p1 D* Y 53_常用命令2 L V5 k8 y8 S h( Q0 `2 O4 s- I- N 54_for-while-if-nc6 z# I2 D6 f- D* |6 Y @ 55_jdk安装-环境变量配置2 C6 x4 C; s) M: {$ }- p 56_hadoop安装-配置 57_hadoop伪分布模式8 I/ e; `1 Y$ b+ p1 R5 ^ 58_编写分发脚本-xcall-rsync1 X% G: Y' Q; }5 I$ [ 59_hadoop完全分布式-hdfs体验 60_hadoop的架构原理图 61_临时文件 62_hadoop的简单介绍, p5 P$ @+ O2 V. p } 63_通过京东的流程讲解hadoop的处理过程; b1 Q* b- v& N, S4 G) j' Y 64_项目流程图 65_架构2 66_跑一个应用程序 67_hadoop的搭建的复习6 h) {. C, f( J( @& F0 G 68_脚本分析的过程" ?' q# U7 B/ ~" W, e- I 69_开启和关闭一个进程 70_hadoop常用的命令和关闭防火墙) Q" A0 B3 M8 s3 ? 71_hadoop存储为何是128M 72_hadoop的存储问题 73_hadoop的高可用 74_配置hadoop临时目录 75_hadoop的hdfs的jar包 76_hadoop的存储问题+ B: J K& G* B4 Z 77_hadoop的hdfs常用的命令 78_hadoop的存储过程 79_hadoop大数据节点% K S, J! U3 W& o2 d) Q 80_hdfs-maven-hdfs API访问8 s8 J# W* l- i% x, ]: L! L 81_hdfs-maven-idea的集成处理 82_hdfs-block大小-副本数设定9 o$ I! k4 |+ ]9 q2 h8 ]# x6 B, S* Y$ W 83_hdfs-网络拓扑-写入剖析2 g4 Z0 j& K; Z, K 84_hdfs-写入剖析2-packet-chunk 85_hdfs-压缩编解码器, u" o: K/ V5 B 86_hdfs-MR原理 87_hdfs-wordcount$ ?% ?& }' U. [0 M9 b 88_hadoop-mapreduce-切片演示-mapper 89_hadoop-mapreduce-url演示1 B% m, V- Z) ~. B9 |9 m2 u 90_job提交流程剖析 91_job split计算法则-读取切片的法则 92_job seqfile5 v! h+ R9 L1 w, U* T6 J# M 93_job 全排序-自定义分区类2 n% h" `: b4 c) C3 J9 S 94_job二次排序5 t3 Z2 R- ]( a: s* c0 Z 95_从db输入数据进行mr计算: L. M4 I6 y, R2 l/ u/ L 96_输出数据到db中 97_NLineInputFormat& u( k1 T& z( O# P, S* y1 Y 98_KeyValueTextInputFormat* p$ O1 z- h, n" e( x1 s& c% z' v 99_join mapper端连接- N, S# O2 }6 m0 T 100_join reduce端连接0 N1 |* R5 n* D8 C+ i 101_hadoop Namenode HA配置8 [( ^7 Q1 W' y3 q 102_avro串行化4 [! T( [, J# e5 h P' w' {% I 103_google pb串行化& S- V% x6 v) {( Y" W 104_hive安装-使用: r/ Q& x. ~6 `- d* Y& R U4 X 105_hive beeline-hiveserver2 106_hive beeline-外部表-内部标 107_hive 分区表-桶表 108_hive word count 109_hive连接查询-union查询-load数据 110_hbase概述 111_zk架构-集群搭建-容灾演练avi 112_zk API-观察者-临时节点-序列节点-leader选举 113_hadoop namenode HA自动容灾" X3 `' ^/ U+ u+ U" F: } b 114_hadoop RM HA自动容灾 115_hbase集群搭建 116_hbase名字空间-表 117_hbase大批量操作7 [! ^" m3 B$ C. {1 S$ h. X 118_hbase架构-表和区域切割( p4 _0 k) J9 A/ ~; [ F 119_hbase架构-区域的合并 120_hbase get-scan-范围指定 121_扫描缓存-超时-切片' O; n; m' P; a6 T/ H$ S! ^ 122_hbase的HA配置演示-和Hadoop的HA集成 123_hbase版本机制 124_hbase-ttl-min-versions-keep-deleted-cells" @- N5 [2 s; S3 T$ H' C 125_keep-deleted-cells控制是否保留删除的shell$ V8 |; Q7 g" ]- C# j% |! y 126_过滤器rowkey-family 127_过滤器-分页-row-col 128_filterList 129_rowkey2 h5 Y+ y9 _1 j0 K0 Q) n 130_区域观察者 131_区域观察者实现和部署" s o7 p+ F& p/ a) ]& W/ ? 132_重写区域观察者的postPut和postScannext方法实现数据统一处理0 H) Q' Z- b; P# K 133_hbase的bulkload命令实现hbase集群之间数据的传输2 D6 d; F6 S8 x+ I/ I0 B0 @ 134_hive同hbase集成,统计hbase数据表信息% Q/ R! Z1 J3 J) k+ H! {6 D# M 135_使用TableInputFormat进行MR编程! m& C6 B/ v6 N" `, I' O& }4 u 136_使用phoenix交互hbase& h* s5 S- ~6 ]: u7 \ 137_squirrel工具. |+ E; g* R9 l3 E 138_flume简介 139_nc收集日志# [3 O7 K& n; f; y( f 140_hdfs sink收集日志到hdfs b9 o, k, j( G4 l! {* u: | 141_使用spooldir实现批量收集/ s8 F* }% o- n6 g& a9 w 142_使用exec结合tail命令实现实时收集 143_使用seq源和压力源实现测试 144_使用avro源 145_导入avro maven-avro-client 146_导入avro maven-avro-client 147_使用hbasesink收集日志到hbase数据库 148_内存通道配置6 U/ X5 L3 ]7 b6 `5 x 149_source的通道选择器-复制策略-multiplexing 150_source的数据流程 151_sinkgroup的处理器-loadbalance- ^6 B0 j4 Z5 f9 d 152_sinkgroup的处理器-failover) y- ^1 Y. ~5 s9 G8 S! ^! a5 o 153_kafka集群安装与启动4 ^; K& j3 @6 p0 M 154_kafka创建主题以及查看主题结构 155_考察zk中kafka结构9 N: Y8 u4 {# m/ z1 d3 H 156_kafka分区服务器服务方式 157_kafka编程API实现生产者和消费者+ w9 l1 N( D8 E% z( D; G 158_kafka手动修改zk的偏移量实现消费处理( w7 s! K9 v7 U3 P7 T4 j 159_kafka与flume集成-source集成- _, G+ K) y% I4 D" q9 \ 160_kafka与flume集成-sink集成4 o6 W; v5 a; p9 s. X% I7 @ 161_kafka与flume集成-channel集成/ x' w3 g3 z& d: w 162_kafka简介!
本次实验旨在学习Hadoop分布式计算框架的部署和使用,以下是实验报告: 一、实验环境 1. 虚拟机软件:VMware Workstation Pro 16 2. 操作系统:Ubuntu Server 18.04 LTS 3. Hadoop版本:Hadoop-2.7.7 4. Java版本:OpenJDK 8 二、实验步骤 1. 安装Java 在Ubuntu系统上安装OpenJDK 8: ``` sudo apt-get update sudo apt-get install openjdk-8-jdk ``` 2. 下载Hadoop 从官网下载Hadoop-2.7.7版本:https://hadoop.apache.org/releases.html 3. 配置Hadoop 解压Hadoop文件,将其放置在指定目录下(此处为/usr/local/hadoop/): ``` sudo tar -zxvf hadoop-2.7.7.tar.gz -C /usr/local/ sudo mv /usr/local/hadoop-2.7.7 /usr/local/hadoop ``` 配置Hadoop环境变量: ``` sudo nano ~/.bashrc ``` 在文件末尾添加以下内容: ``` export HADOOP_HOME=/usr/local/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin ``` 保存并退出,然后使用以下命令使环境变量生效: ``` source ~/.bashrc ``` 4. 配置Hadoop集群 首先,在master节点上创建一个名为“hadoop”的用户,并设置密码: ``` sudo adduser hadoop sudo passwd hadoop ``` 然后在master节点和slave节点上安装ssh服务: ``` sudo apt-get install ssh ``` 生成ssh密钥: ``` ssh-keygen -t rsa ``` 将公钥复制到所有slave节点: ``` ssh-copy-id hadoop@slave1 ssh-copy-id hadoop@slave2 ... ``` 编辑Hadoop的配置文件/etc/hadoop/core-site.xml,添加以下内容: ``` <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> </configuration> ``` 其中“master”是master节点的主机名。 编辑Hadoop的配置文件/etc/hadoop/hdfs-site.xml,添加以下内容: ``` <configuration> <property> <name>dfs.replication</name> <value>3</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/usr/local/hadoop/data/nameNode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/usr/local/hadoop/data/dataNode</value> </property> </configuration> ``` 其中“dfs.replication”表示数据副本数,这里设置为3;“dfs.namenode.name.dir”表示NameNode的数据存储位置,“dfs.datanode.data.dir”表示DataNode的数据存储位置。 编辑Hadoop的配置文件/etc/hadoop/mapred-site.xml,添加以下内容: ``` <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> ``` 编辑Hadoop的配置文件/etc/hadoop/yarn-site.xml,添加以下内容: ``` <configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>master</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration> ``` 其中“yarn.resourcemanager.hostname”表示ResourceManager的主机名,“yarn.nodemanager.aux-services”表示NodeManager的辅助服务。 5. 启动Hadoop集群 启动Hadoop集群: ``` start-all.sh ``` 使用jps命令查看Hadoop进程: ``` jps ``` 输出如下: ``` 24012 Jps 23632 ResourceManager 23355 NameNode 23824 NodeManager 23519 SecondaryNameNode ``` 6. 验证Hadoop集群Hadoop集群中上传文件: ``` hdfs dfs -mkdir /input hdfs dfs -put /usr/local/hadoop/etc/hadoop/*.xml /input ``` 运行Hadoop自带的wordcount例子: ``` hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount /input /output ``` 查看结果: ``` hdfs dfs -cat /output/part-r-00000 ``` 输出如下: ``` "1 "2 "3 "4 "5 "6 "7 "8 "9 "a 2 ``` 至此,Hadoop集群部署实验完成。 三、实验总结 通过本次实验,我学习了Hadoop分布式计算框架的部署和使用方法,了解了Hadoop集群的配置和启动方式,并成功运行了Hadoop自带的wordcount例子,加深了对Hadoop的理解和应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值