大数据服务器迁移步骤及介绍

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


大数据服务器迁移步骤及介绍

history命令查看历史命令

netstat 工具检测开放端口:netstat -anlp | grep 端口号
查看进程:ps -ef |grep nginx

启动zk:bin/zookeeper-server-start.sh config/zookeeper.properties
启动kafka:nohup bin/kafka-server-start.sh config/server.properties 2>&1 &
查看topic通道:bin/kafka-topics.sh --list --bootstrap-server ip:端口
创建通道:bin/kafka-topics.sh --create --partitions 1 --replication-factor 1 --topic demo --bootstrap-server ip:端口
生产消息:bin/kafka-console-producer.sh --broker-list ip:端口 --topic test_topic
消费消息:bin/kafka-console-consumer.sh --bootstrap-server ip:端口 --topic test_topic --from-beginning

域名映射:
etc/hosts:
ip地址 test_m

给文件夹赋权:sudo chmod 777 hdfs://nameservice/tenant-park

删除hdfs文件:hadoop fs -rm -r -skipTrash /tmp

hdfs dfs -ls hdfs://nameservice/user
新建文件夹:sudo -u hdfs hdfs dfs -mkdir /tenant-park
(先source)目录下建/tenant-park/prd/flink/checkpoints文件夹
hive表路径:hdfs://nameservice/tenant-park/dev/databases/park_dev
hdfs dfs -ls hdfs://nameservice/tenant-park/prd/flink
sudo -u hdfs hive
进入到hive库建表(注:先建hbase的表)

查看hive表详细属性:desc formatted test;

进入hbase:hbase shell

查看日志:yarn logs -applicationId application_1648548594494_0212

终止任务:yarn application -kill application_1639965768073_0010

flink任务启动命令:
/opt/cloudera/parcels/FLINK-1.9.2-BIN-SCALA_2.11/lib/flink/bin/flink run -d -m yarn-cluster -ynm 任务名 -ytm 1024 -ys 1 -yqu “root.park_test” --class main方法类全路径 服务器上jar目录 -profile test -checkpointEnable false

spark任务启动命令:
/opt/cloudera/parcels/CDH/bin/spark-submit --master yarn --deploy-mode cluster --num-executors 6 --executor-cores 4 --executor-memory 6G --queue root.park_product
–conf spark.yarn.submit.waitAppCompletion=false
–jars /opt/cloudera/parcels/CDH/lib/hive/lib/hive-hbase-handler-2.1.1-cdh6.2.0.jar
–class main方法类全路径 服务器上jar目录 “20211210000000”
sleep 10m

1、修改了主机器的/app/openresty/nginx/conf/vhost/xxl-job-admin.conf

2、配置/etc/hosts和/etc/profile

3、修改profile配置
添加:
export NODE_HOME=/app/node-v10.16.0-linux-x64
export NODE_PATH=/app/node-v10.16.0-linux-x64/node_global/lib/node_modules
export PATH= P A T H : PATH: PATH:NODE_HOME/bin

export HADOOP_HOME=“/opt/cloudera/parcels/CDH”
export HIVE_HOME=“/opt/cloudera/parcels/CDH/lib/hive”
export HBASE_HOME=“/opt/cloudera/parcels/CDH/lib/hbase”
export HCAT_HOME=“/opt/cloudera/parcels/CDH”
export HADOOP_CONF_DIR=“/opt/cloudera/etc/hive-conf”
export HIVE_CONF=“/opt/cloudera/etc/hive-conf/”
export YARN_CONF_DIR=“/opt/cloudera/etc/hive-conf”

export FLINK_HOME=/opt/cloudera/parcels/FLINK-1.9.2-BIN-SCALA_2.11/lib/flink
export PATH= P A T H : PATH: PATH:FLINK_HOME/bin

export CDH_MR2_HOME= H A D O O P H O M E / l i b / h a d o o p − m a p r e d u c e e x p o r t P A T H = HADOOP_HOME/lib/hadoop-mapreduce export PATH= HADOOPHOME/lib/hadoopmapreduceexportPATH={JAVA_HOME}/bin: H A D O O P C O N F D I R : {HADOOP_CONF_DIR}: HADOOPCONFDIR:{HADOOP_HOME}/bin: H A D O O P H O M E / s b i n : {HADOOP_HOME}/sbin: HADOOPHOME/sbin:{HBASE_HOME}/bin: H I V E H O M E / b i n : {HIVE_HOME}/bin: HIVEHOME/bin:{HCAT_HOME}/bin:${PATH}

4、source /etc/profile

5、在安装的CDH目录下
拷贝etc文件到/opt/cloudera下
修改里面的四个xml文件的节点域名配置

6、新建文件夹:sudo -u hdfs hdfs dfs -mkdir hdfs://nameservice/hbase
删除hdfs文件:hadoop fs -rm -r -skipTrash /folder_name

(先source)目录下建文件夹
/tenant-park/prd/databases/park_prd
/tenant-park/prd/flink/checkpoints
/tenant-park/prd/flink/savepoints
查看/user目录下有没有hdfs子目录,没有就手动创建

8、创建hive和hbase表(先新建hbase表)
赋权:sudo -u hdfs hdfs dfs -chown hdfs /tenant-park
sudo -u hdfs hdfs dfs -chown 777 /user/flink

sudo -u hdfs hive(进入hive)

删除hive库:drop database db_hive cascade;

创建hive库:create database park_prd;
进入hive库:use park_prd;

查看hive表结构:show create table ddi_table;

9、启动任务
赋权flink目录:chmod -R 777 /opt/cloudera/parcels/FLINK/lib/flink/bin

坑:user=root, access=WRITE, inode=“/user”:hdfs:supergroup:drwxr-xr-x
解决:sudo -u hdfs hadoop fs -chmod -R 777 /user

9、xxx-job机器配置:
datax目录配置拷贝及修改
~:修改/app/datax/bin目录下的datax2.py的数据库配置,以及hive数据库节点配置
执行器配置:http://ip:端口/,http://ip:端口/
拷贝beeline_dc文件到app目录下,并更改文件的hive连接配置

node文件夹拷贝到app目录下

nodejs里面配置的…/…/park_data…:需要在/data/applogs/xxl-job目录下添加对应的js文件,修改js文件里面的数据库配置

10、
hives数据导出到本地:
insert overwrite local directory ‘/tmp/export_db/’ select * from ddi_table;

去分隔符的方式:
insert overwrite local directory ‘/tmp/export_db/’ row format delimited fields terminated by ‘\t’ select * from ddi_table;

hives数据导入:
注:Hive 3.x系列不支持load data 命令向内部表导入数据
1.创建外部表
2.创建临时表再用 select 方式导入

删除hive表:
drop table if exists ddi_test;

例如:
1、先创建外部表:CREATE TABLE ddi_test(
id string,
type_code string,
type_name string)
row format delimited fields terminated by ‘\t’ stored as textfile;

2、把本地的文件导入到外部表:
load data local inpath ‘/user/export_db/1.txt’ into table ddi_test;

3、再将外部表的数据导入到内部表:
insert into table ddi_table select * from ddi_test;

注:
hadoop fs -chmod -R 777 /user 能让权限变成最高权限,能更改drwxr-xr-x为drwxrwxrwx

切换到root账号
sudo -i

hbase数据迁移:
1、进入hbase:hbase shell
2、snapshot ‘要迁移的表’, ‘备份的表名’
#查看创建的快照,可用list_snapshots命令
hbase> list_snapshots
#如果快照创建有问题,可以先删除,用delete_snapshot命令
hbase >delete_snapshot ‘TEST_DAY’

3、在原集群机器执行:
hbase org.apache.hadoop.hbase.snapshot.ExportSnapshot
-snapshot ODS_ENERGY_POI_DATA
-copy-from hdfs://nameservice/hbase
-copy-to hdfs://ip地址/hbase
-mappers 20
-bandwidth 20

注:
源数据机器:-copy-from hdfs://nameservice/hbase
目标迁移机器:-copy-to hdfs://ip地址/hbase \

4、到目标机器进入hbase执行数据导入:
两种方式:
方式1:会覆盖原表device

hbase shell

disable ‘TEST_DAY’

restore_snapshot ‘snapshot_src_table’

enable ‘TEST_DAY’

方式2:恢复到新表device_new

clone_snapshot ‘TEST_DAY’,‘TEST_DAY’

===============================================================
删除hbase表:
disable ‘TEST_DAY’
drop ‘TEST_DAY’

清空表数据:truncate ‘表名’

删除:rm -rf /home/test.sql
打包:tar -zcvf export.tar.gz /home/export111.hql /home/export_db
解压:tar -zxvf fenci.py.tar.gz -C pythontab/
文件上传到另一台服务器:scp /home/test.tar.* root@ip地址:/home/

坑:PleaseHoldException: Master is initializing错误
解决:进入zookeeper的客户端,把zookeeper里面的hbase 全部删掉
cd /opt/cloudera/parcels/CDH/lib/zookeeper/bin
./zkCli.sh
查看是否又hbase:ls /
查看删除命令:help
删除hbase:rmr /hbase
重启CDH

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值