大数据组件的启动方式以及端口号总结

爱吃喵的虎

已于 2022-09-23 10:45:30 修改

阅读量1.4k

点赞数

于 2022-09-15 22:54:19 首次发布

本文链接：https://blog.csdn.net/m0_46782746/article/details/126880813

版权

大数据同时被 3 个专栏收录

5 篇文章 0 订阅

订阅专栏

spark

3 篇文章 0 订阅

订阅专栏

hadoop

3 篇文章 0 订阅

订阅专栏

一、 Hadoop2.8.5

1、 HDFS的一些访问端口和启动方式

启动 start-dfs.sh
端口号 hadoop3.x
- NameNode
  9000：API操作 8020
  50070：web访问端口 9870
- DataNode
  50010：dn和snn通信的端口 9866
  50075：web访问端口 9864
- SecondaryNameNode
  50090：web访问端口 9868

2、 Yarn的一些访问端口和启动方式

启动 start-yarn.sh
端口号
- resourceManager
  8088：web访问端口
- nodeManager

3、 MR历史日志服务器访问端口和启动方式

启动 hadoop3.x
mr-jobhistory-daemon.sh start historyserver mapred --daemon start historyserver
端口号
19888：web 访问端口

二、 Hive2.3.8

启动
nohup hiveserver2 1>/opt/app/hive-2.3.8/hive.log 2>&1 &
端口号
10000：jdbc:hive2://node1:10000

三、 MySQL8.0

启动
systemctl start mysqld
端口号
3306：通信端口

四、 azkaban3.85.0

启动(需要在安装目录下启动)
bin/start-web.sh
bin/start-exec.sh
端口号
- webserver
  8081：web访问端口
- execserver
  12321：通信端口

五、 sqoop1.4.7

import

      bin/sqoop import \
      --connect jdbc:mysql://doit01:3306/realtimedw \
      --username root \
      --password ABC123abc.123 \
      --table dim_pginfo \
      --target-dir /sqoopdata/dim_pginfo2 \
      --fields-terminated-by '\001' \
      --delete-target-dir \
      --compress \
      --compression-codec gzip \
      --split-by id \
      -m 2

参数说明：

import 说明是一个数据导入到hdfs的过程
\ 斜杠是多行shell命令换行符号
–connect jdbc:mysql://doit01:3306/realtimedw 这是mysql连接协议及其地址，注意包含了数据库名字
–username root
–password ABC123abc.123
这个分别是mysql的账号和密码
–table dim_pginfo 这是数据库的表名
–target-dir /sqoopdata/dim_pginfo2 这是hdfs上对应存放数据目录路径‘
–fields-terminated-by ‘\001’ 这是文件以什么分割符号切割，这里一般都是以不可见不可打印字符分割，因为可以打印可以显式的符号很容易出现在mysql字段的字符串中，引发后续结构化文件读取处理时那一有效正确切割的问题。
–delete-target-dir 这个是大家写mr程序时经常会遇到的输出文件已存在，就会报异常。这个参数是，如果目标目录已存在，则删除掉旧的目录。注意，一定一定检查，是否有必要删除旧的目录
–compress
–compression-codec gzip
这是指定是否压缩，以及压缩文件格式。可以使用多种压缩文件格式
–split-by id 这是指定，mysql文件中，使用哪个字段进行文件划分，因为mapreduce是会并行执行，这时候需要指定每个并行任务根据哪个字段对文件做切割划分
-m 2 这是maptask的数量设置，这里设置是2.

可以指定生产的文件类型
–as-avrodatafile
–as-parquetfile
–as-sequencefile
–as-textfile

–query ‘select id,member_id,order_sn,receiver_province from doit_mall.oms_order where id>20 and $CONDITIONS’

--where "stu_age>25" \ 过滤条件
--columns "stu_id,stu_name,stu_phone" \ 选择列

--null-string '\\N' \ 空字符串存储

--hive-import \ 从hive中导入
--hive-table yiee_dw.doit_jw_stu_base3 \ hive的表名

注：有了–query，就不要有–table了，也不要有–where了，也不要有–columns了

export

sqoop export \
--connect jdbc:mysql://h3:3306/dicts \
--username root \
--password haitao.211123 \
--table dau_t \
--input-fields-terminated-by ',' \
--export-dir '/user/hive/warehouse/dau_t' \
--batch

参数解释：

–connect jdbc:mysql://h3:3306/dicts \ 这是mysql链接地址，注意还有数据库名字
–username root
–password haitao.211123 \账号密码
–table dau_t \ 表的名字
–input-fields-terminated-by ‘,’ \ 切割符号
–export-dir ‘/user/hive/warehouse/dau_t’ \ 指定从hdfs哪个目录下导出
–batch # 以batch模式去执行sql

–input-null-string ‘\N’
–input-null-non-string ‘\N’ \ 指定hdfs中的符号被mysql解析为null
–update-mode allowinsert \ 这是更新模式，允许追加以及更新数据
–update-key id \ 更新字段依据