Hadoop生态圈各组件的启动及关闭脚本

有些使用频率不高,不容易记住。大讲台老师特地整理出来,同学门可以先存起来,用的时候就方便了。


1. Hdfs (v 2.7.3)

1.1.启动集群

sbin/start-dfs.sh

注:这个启动脚本是通过ssh对多个节点的namenode、datanode、journalnode以及zkfc进程进行批量启动的。

1.2.启动NameNode

sbin/hadoop-daemon.sh start namenode

1.3.启动DataNode

sbin/hadoop-daemon.sh start datanode

1.4.停止集群

sbin/stop-dfs.sh

1.5.停止单个进程

sbin/hadoop-daemon.sh stop zkfc
sbin/hadoop-daemon.sh stop journalnode
sbin/hadoop-daemon.sh stop datanode
sbin/hadoop-daemon.sh stop namenode

 

2. Yarn (v 2.7.3)

2.1.启动集群

sbin/start-yarn.sh

注:start-yarn.sh启动脚本只在本地启动一个ResourceManager进程,而3台机器上的nodemanager都是通过ssh的方式启动的。

2.2.启动ResouceMananger

sbin/yarn-daemon.sh start resourcemanager

2.3.启动NodeManager

sbin/yarn-daemon.sh start nodemanager

2.3.启动JobHistoryServer

sbin/yarn-daemon.sh start historyserver

2.4.停止集群

sbin/stop-yarn.sh

2.5.停止单个节点

sbin/yarn-daemon.sh stop resourcemanager
sbin/yarn-daemon.sh stop nodemanager

 

3. Zookeeper (v 3.4.5)

3.1.启动集群

bin/zkServer.sh start

3.2.启动单个节点

bin/zkServer.sh start

3.3.启动客户端

bin/zkCli.sh -server master:2181

 

4.Kafka (v 2.10-0.10.1.1)

4.1.启动集群

bin/kafka-server-start.sh -daemon config/server.properties

4.2.启动单个节点

bin/kafka-server-start.sh -daemon config/server.properties

4.3.创建Topic

bin/kafka-topics.sh --create --zookeeper master:2181 --replication-factor 1 --partitions 1 --topic test

4.4.列出Topic

bin/kafka-topics.sh --list --zookeeper master:2181

4.5.生产数据

bin/kafka-console-producer.sh --broker-list master:9092 --topic test

4.6.读取数据

bin/kafka-console-consumer.sh --zookeeper master:2181 --topic test --from-beginning

 

5.Hbase (v 1.2.4)

5.1.启动/停止集群

bin/start-hbase.sh
bin/stop-hbase.sh

5.2. 启动/停止HMaster

bin/hbase-daemon.sh start master
bin/hbase-daemon.sh stop master

5.3. 启动/停止HRegionServer

bin/hbase-daemon.sh start regionserver
bin/hbase-daemon.sh stop regionserver

5.2.启动Shell

bin/hbase shell

 

6.Spark (v 2.1.0-bin-hadoop2.7)

6.1.启动程序

6.1.1. 本地

bin/spark-shell --master local

6.1.2.Standalone

bin/spark-shell --master spark://master:7077

6.1.3. Yarn Client

bin/spark-shell --master yarn-client

6.1.4. Yarn Cluster

bin/spark-shell --master yarn-cluster

7. Flume

7.1启动Agent

bin/flume-ng agent -n LogAgent -c conf -f conf/logagent.properties -Dflume.root.logger=DEBUG,console

 

8.Sqoop

8.1.导入

sqoop import \
--connect jdbc:mysql://mysql.example.com/sqoop \
--username sqoop \
--password sqoop \
--table cities

8.2.导出

sqoop export \
--connect jdbc:mysql://mysql.example.com/sqoop \
--username sqoop \
--password sqoop \
--table cities \
--export-dir cities

 

9.Hive

9.1. 启动Shell

hive -h <host> -p <port>
beeline -u jdbc:hive2://<host>:<port>

10. Mysql

10.1.启动Shell

mysql -u<user> -p<password>

 

Hadoop生态圈是指围绕Hadoop分布式存储和处理框架所形成的一系列相关技术和工具。它包括了众多的开源项目和组件,用于支持大规模数据处理、存储和分析。 以下是Hadoop生态圈中一些常见的组件和技术: 1. HDFSHadoop Distributed File System):Hadoop的分布式文件系统,用于存储大规模数据,并提供高可靠性和高吞吐量的数据访问。 2. MapReduce:Hadoop的计算框架,用于并行处理大规模数据集。它将数据分片并分发到集群中的多个节点上进行处理和计算。 3. YARN(Yet Another Resource Negotiator):Hadoop的资源管理系统,用于调度和管理集群中的计算资源。它可以同时支持多种计算框架,如MapReduce、Spark等。 4. Hive:基于Hadoop的数据仓库工具,提供类似于SQL的查询语言HiveQL,使用户可以通过SQL语句对存储在Hadoop中的数据进行查询和分析。 5. Pig:一种高级的数据流脚本语言,用于对大规模数据进行转换、查询和分析。它提供了一种简化的编程模型,使用户可以快速编写复杂的数据处理任务。 6. HBase:一个分布式、可扩展的NoSQL数据库,建立在Hadoop之上。它提供了高性能的随机读写能力,适用于存储大规模的结构化数据。 7. Spark:一个快速、通用的大数据处理引擎。与传统的MapReduce相比,Spark具有更高的性能和更丰富的功能,支持交互式查询、流处理、机器学习等应用。 除了以上列举的组件外,还有其他一些组件如Sqoop(用于数据导入和导出)、Flume(用于数据采集和传输)、Oozie(用于工作流调度)、ZooKeeper(用于协调分布式应用)等,它们都是Hadoop生态圈中的重要组成部分,为大数据处理提供了全面的支持和解决方案。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值