大数据组件的启动方式以及端口号总结

3 篇文章 0 订阅
3 篇文章 0 订阅

一、 Hadoop2.8.5

1、 HDFS的一些访问端口和启动方式

  • 启动 start-dfs.sh

  • 端口号                                                                                   hadoop3.x

    • NameNode
      9000:API操作                                                                 8020
      50070:web访问端口                                                       9870
    • DataNode
      50010:dn和snn通信的端口                                            9866
      50075:web访问端口                                                       9864
    • SecondaryNameNode  
      50090:web访问端口                                                       9868

2、 Yarn的一些访问端口和启动方式

  • 启动 start-yarn.sh

  • 端口号 

    • resourceManager
      8088:web访问端口
    • nodeManager

3、 MR历史日志服务器访问端口和启动方式

  • 启动                                                                                       hadoop3.x  
    mr-jobhistory-daemon.sh start historyserver            mapred --daemon start historyserver
  • 端口号
    19888:web 访问端口

二、 Hive2.3.8

  • 启动
    nohup hiveserver2 1>/opt/app/hive-2.3.8/hive.log 2>&1 &
  • 端口号
    10000:jdbc:hive2://node1:10000

三、 MySQL8.0

  • 启动
    systemctl start mysqld
  • 端口号
    3306:通信端口

四、 azkaban3.85.0

  • 启动(需要在安装目录下启动)
    bin/start-web.sh
    bin/start-exec.sh

  • 端口号

    • webserver
      8081:web访问端口
    • execserver
      12321:通信端口

五、 sqoop1.4.7

  import 

      bin/sqoop import \
      --connect jdbc:mysql://doit01:3306/realtimedw \
      --username root \
      --password ABC123abc.123 \
      --table dim_pginfo \
      --target-dir /sqoopdata/dim_pginfo2 \
      --fields-terminated-by '\001' \
      --delete-target-dir \
      --compress \
      --compression-codec gzip \
      --split-by id \
      -m 2

 参数说明 :

import 说明是一个数据导入到hdfs的过程
\ 斜杠是多行shell命令换行符号
connect jdbc:mysql://doit01:3306/realtimedw 这是mysql连接协议及其地址,注意包含了数据库名字
username root
password ABC123abc.123
这个分别是mysql的账号和密码
table dim_pginfo 这是数据库的表名
target-dir /sqoopdata/dim_pginfo2 这是hdfs上对应存放数据目录路径‘
fields-terminated-by ‘\001’ 这是文件以什么分割符号切割,这里一般都是以不可见不可打印字符分割,因为可以打印可以显式的符号很容易出现在mysql字段的字符串中,引发后续结构化文件读取处理时那一有效正确切割的问题。
delete-target-dir 这个是大家写mr程序时经常会遇到的输出文件已存在,就会报异常。这个参数是,如果目标目录已存在,则删除掉旧的目录。注意,一定一定检查,是否有必要删除旧的目录
–compress
–compression-codec gzip

这是指定是否压缩,以及压缩文件格式。可以使用多种压缩文件格式
–split-by id 这是指定,mysql文件中,使用哪个字段进行文件划分,因为mapreduce是会并行执行,这时候需要指定每个并行任务根据哪个字段对文件做切割划分
-m 2 这是maptask的数量设置,这里设置是2.

可以指定生产的文件类型
–as-avrodatafile
–as-parquetfile
–as-sequencefile
–as-textfile

 –query ‘select id,member_id,order_sn,receiver_province from doit_mall.oms_order where id>20 and $CONDITIONS

--where "stu_age>25" \                                      过滤条件
--columns "stu_id,stu_name,stu_phone" \        选择列

--null-string '\\N' \                                              空字符串存储

--hive-import \                                                     从hive中导入
--hive-table yiee_dw.doit_jw_stu_base3 \          hive的表名

注:有了–query,就不要有–table了,也不要有–where了,也不要有–columns了

export

sqoop export \
--connect jdbc:mysql://h3:3306/dicts \
--username root \
--password haitao.211123 \
--table dau_t \
--input-fields-terminated-by ',' \
--export-dir '/user/hive/warehouse/dau_t' \
--batch 

 参数解释:

–connect jdbc:mysql://h3:3306/dicts \ 这是mysql链接地址,注意还有数据库名字
–username root
–password haitao.211123 \账号密码
–table dau_t \ 表的名字
–input-fields-terminated-by ‘,’ \ 切割符号
–export-dir ‘/user/hive/warehouse/dau_t’ \ 指定从hdfs哪个目录下导出
–batch # 以batch模式去执行sql

–input-null-string ‘\N’
–input-null-non-string ‘\N’ \ 指定hdfs中的符号被mysql解析为null
–update-mode allowinsert \ 这是更新模式,允许追加以及更新数据
–update-key id \ 更新字段依据

六、 Flume1.8.0

        启动方式:

           1)全写

           bin/flume-ng agent --conf conf --conf-file job/flume-netcat-logger.conf --name a1

(-Dflume.root.logger=INFO,console)

           2)缩写

           bin/flume-ng agent -c conf -f job/flume-netcat-logger.conf -n a1 

(-Dflume.root.logger=INFO,console)

        参数说明:

                -c:指向flume安装目录下conf目录的绝对路径

                -f:指向flume-app.conf文件的绝对路径

                -n:flume-app.conf文件中agent的名字

                -Dflume:启动日志打印到当前控制台

七、 spark2.3.1

1、 独立调度器

  • 启动
    start-spark-all.sh

  • 端口号                                               

    • master
      7077:通信端口
      8080:web访问端口(自己设置8888)  (sbin目录下编辑start-master.shSPARK_MASTER_WEBUI_PORT)                         ​
    • worker 

​​​​​​                8081:webUI访问端口(自己设置9999)(sbin目录下编辑start-slave.shSPARK_WORKER_WEBUI_PORT

2、 历史日志服务器

  • 启动
    start-history-server.sh
  • 端口号                                                                           spark3.x
    4000:web访问端口                                                      18080

八、 tomcat8.5.55

  • 启动
    bin/startup.sh
  • 端口号
    8080:web访问端口

九、 zookeeper3.4.6

  • 启动
    zkServer.sh start

  • 端口号

    • 2181:对client端提供服务
    • 3888:leader选举
    • 2888:集群内的机器通讯使用

十、 kafka0.11.0.0

  • 启动
    kafka-server-start.sh server.properties路径 &
  • 端口号
    9092:默认端口号

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值