大数据服务器迁移步骤及介绍

最新推荐文章于 2024-02-20 09:43:00 发布

欧浪

最新推荐文章于 2024-02-20 09:43:00 发布

阅读量599

点赞数

分类专栏：大数据文章标签： big data 服务器 hadoop

本文链接：https://blog.csdn.net/qq_37928228/article/details/125303406

版权

大数据专栏收录该内容

3 篇文章 0 订阅

订阅专栏

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

大数据服务器迁移步骤及介绍

大数据服务器迁移步骤及介绍

history命令查看历史命令

netstat 工具检测开放端口：netstat -anlp | grep 端口号
查看进程：ps -ef |grep nginx

启动zk：bin/zookeeper-server-start.sh config/zookeeper.properties
启动kafka：nohup bin/kafka-server-start.sh config/server.properties 2>&1 &
查看topic通道：bin/kafka-topics.sh --list --bootstrap-server ip:端口
创建通道：bin/kafka-topics.sh --create --partitions 1 --replication-factor 1 --topic demo --bootstrap-server ip:端口
生产消息：bin/kafka-console-producer.sh --broker-list ip:端口 --topic test_topic
消费消息：bin/kafka-console-consumer.sh --bootstrap-server ip:端口 --topic test_topic --from-beginning

域名映射：
etc/hosts:
ip地址 test_m

给文件夹赋权：sudo chmod 777 hdfs://nameservice/tenant-park

删除hdfs文件：hadoop fs -rm -r -skipTrash /tmp

hdfs dfs -ls hdfs://nameservice/user
新建文件夹：sudo -u hdfs hdfs dfs -mkdir /tenant-park
（先source）目录下建/tenant-park/prd/flink/checkpoints文件夹
hive表路径：hdfs://nameservice/tenant-park/dev/databases/park_dev
hdfs dfs -ls hdfs://nameservice/tenant-park/prd/flink
sudo -u hdfs hive
进入到hive库建表（注：先建hbase的表）

查看hive表详细属性:desc formatted test;

进入hbase：hbase shell

查看日志：yarn logs -applicationId application_1648548594494_0212

终止任务：yarn application -kill application_1639965768073_0010

flink任务启动命令：
/opt/cloudera/parcels/FLINK-1.9.2-BIN-SCALA_2.11/lib/flink/bin/flink run -d -m yarn-cluster -ynm 任务名 -ytm 1024 -ys 1 -yqu “root.park_test” --class main方法类全路径服务器上jar目录 -profile test -checkpointEnable false

spark任务启动命令：
/opt/cloudera/parcels/CDH/bin/spark-submit --master yarn --deploy-mode cluster --num-executors 6 --executor-cores 4 --executor-memory 6G --queue root.park_product
–conf spark.yarn.submit.waitAppCompletion=false
–jars /opt/cloudera/parcels/CDH/lib/hive/lib/hive-hbase-handler-2.1.1-cdh6.2.0.jar
–class main方法类全路径服务器上jar目录 “20211210000000”
sleep 10m

1、修改了主机器的/app/openresty/nginx/conf/vhost/xxl-job-admin.conf

2、配置/etc/hosts和/etc/profile

3、修改profile配置
添加：
export NODE_HOME=/app/node-v10.16.0-linux-x64
export NODE_PATH=/app/node-v10.16.0-linux-x64/node_global/lib/node_modules
export PATH= $P A T H :$ NODE_HOME/bin

export HADOOP_HOME=“/opt/cloudera/parcels/CDH”
export HIVE_HOME=“/opt/cloudera/parcels/CDH/lib/hive”
export HBASE_HOME=“/opt/cloudera/parcels/CDH/lib/hbase”
export HCAT_HOME=“/opt/cloudera/parcels/CDH”
export HADOOP_CONF_DIR=“/opt/cloudera/etc/hive-conf”
export HIVE_CONF=“/opt/cloudera/etc/hive-conf/”
export YARN_CONF_DIR=“/opt/cloudera/etc/hive-conf”

export FLINK_HOME=/opt/cloudera/parcels/FLINK-1.9.2-BIN-SCALA_2.11/lib/flink
export PATH= $P A T H :$ FLINK_HOME/bin

export CDH_MR2_HOME= $HADOOP_HOME/lib/hadoop-mapreduce export PATH=$ {JAVA_HOME}/bin: ${HADOOP_CONF_DIR}:$ {HADOOP_HOME}/bin: ${HADOOP_HOME}/sbin:$ {HBASE_HOME}/bin: ${HIVE_HOME}/bin:$ {HCAT_HOME}/bin:${PATH}

4、source /etc/profile

5、在安装的CDH目录下
拷贝etc文件到/opt/cloudera下
修改里面的四个xml文件的节点域名配置

6、新建文件夹：sudo -u hdfs hdfs dfs -mkdir hdfs://nameservice/hbase
删除hdfs文件：hadoop fs -rm -r -skipTrash /folder_name

（先source）目录下建文件夹
/tenant-park/prd/databases/park_prd
/tenant-park/prd/flink/checkpoints
/tenant-park/prd/flink/savepoints
查看/user目录下有没有hdfs子目录，没有就手动创建

8、创建hive和hbase表（先新建hbase表）
赋权：sudo -u hdfs hdfs dfs -chown hdfs /tenant-park
sudo -u hdfs hdfs dfs -chown 777 /user/flink

sudo -u hdfs hive（进入hive）

删除hive库：drop database db_hive cascade;

创建hive库：create database park_prd;
进入hive库：use park_prd;

查看hive表结构：show create table ddi_table;

9、启动任务
赋权flink目录：chmod -R 777 /opt/cloudera/parcels/FLINK/lib/flink/bin

坑：user=root, access=WRITE, inode=“/user”:hdfs:supergroup:drwxr-xr-x
解决：sudo -u hdfs hadoop fs -chmod -R 777 /user

9、xxx-job机器配置：
datax目录配置拷贝及修改
~：修改/app/datax/bin目录下的datax2.py的数据库配置，以及hive数据库节点配置
执行器配置：http://ip:端口/,http://ip:端口/
拷贝beeline_dc文件到app目录下，并更改文件的hive连接配置

node文件夹拷贝到app目录下

nodejs里面配置的…/…/park_data…：需要在/data/applogs/xxl-job目录下添加对应的js文件，修改js文件里面的数据库配置

10、
hives数据导出到本地：
insert overwrite local directory ‘/tmp/export_db/’ select * from ddi_table;

去分隔符的方式：
insert overwrite local directory ‘/tmp/export_db/’ row format delimited fields terminated by ‘\t’ select * from ddi_table;

hives数据导入：
注：Hive 3.x系列不支持load data 命令向内部表导入数据
1.创建外部表
2.创建临时表再用 select 方式导入

删除hive表：
drop table if exists ddi_test;

例如：
1、先创建外部表：CREATE TABLE ddi_test(
id string,
type_code string,
type_name string)
row format delimited fields terminated by ‘\t’ stored as textfile;

2、把本地的文件导入到外部表：
load data local inpath ‘/user/export_db/1.txt’ into table ddi_test;

3、再将外部表的数据导入到内部表：
insert into table ddi_table select * from ddi_test;

注：
hadoop fs -chmod -R 777 /user 能让权限变成最高权限，能更改drwxr-xr-x为drwxrwxrwx

切换到root账号
sudo -i

hbase数据迁移：
1、进入hbase：hbase shell
2、snapshot ‘要迁移的表’, ‘备份的表名’
#查看创建的快照，可用list_snapshots命令
hbase> list_snapshots
#如果快照创建有问题，可以先删除，用delete_snapshot命令
hbase >delete_snapshot ‘TEST_DAY’

3、在原集群机器执行：
hbase org.apache.hadoop.hbase.snapshot.ExportSnapshot
-snapshot ODS_ENERGY_POI_DATA
-copy-from hdfs://nameservice/hbase
-copy-to hdfs://ip地址/hbase
-mappers 20
-bandwidth 20

注：
源数据机器：-copy-from hdfs://nameservice/hbase
目标迁移机器：-copy-to hdfs://ip地址/hbase \

4、到目标机器进入hbase执行数据导入：
两种方式：
方式1：会覆盖原表device

hbase shell

disable ‘TEST_DAY’

restore_snapshot ‘snapshot_src_table’

enable ‘TEST_DAY’

方式2：恢复到新表device_new

clone_snapshot ‘TEST_DAY’,‘TEST_DAY’

===============================================================
删除hbase表：
disable ‘TEST_DAY’
drop ‘TEST_DAY’

清空表数据：truncate ‘表名’

删除：rm -rf /home/test.sql
打包：tar -zcvf export.tar.gz /home/export111.hql /home/export_db
解压：tar -zxvf fenci.py.tar.gz -C pythontab/
文件上传到另一台服务器：scp /home/test.tar.* root@ip地址:/home/

坑：PleaseHoldException: Master is initializing错误
解决：进入zookeeper的客户端，把zookeeper里面的hbase 全部删掉
cd /opt/cloudera/parcels/CDH/lib/zookeeper/bin
./zkCli.sh
查看是否又hbase：ls /
查看删除命令：help
删除hbase：rmr /hbase
重启CDH