提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
文章目录
大数据服务器迁移步骤及介绍
history命令查看历史命令
netstat 工具检测开放端口:netstat -anlp | grep 端口号
查看进程:ps -ef |grep nginx
启动zk:bin/zookeeper-server-start.sh config/zookeeper.properties
启动kafka:nohup bin/kafka-server-start.sh config/server.properties 2>&1 &
查看topic通道:bin/kafka-topics.sh --list --bootstrap-server ip:端口
创建通道:bin/kafka-topics.sh --create --partitions 1 --replication-factor 1 --topic demo --bootstrap-server ip:端口
生产消息:bin/kafka-console-producer.sh --broker-list ip:端口 --topic test_topic
消费消息:bin/kafka-console-consumer.sh --bootstrap-server ip:端口 --topic test_topic --from-beginning
域名映射:
etc/hosts:
ip地址 test_m
给文件夹赋权:sudo chmod 777 hdfs://nameservice/tenant-park
删除hdfs文件:hadoop fs -rm -r -skipTrash /tmp
hdfs dfs -ls hdfs://nameservice/user
新建文件夹:sudo -u hdfs hdfs dfs -mkdir /tenant-park
(先source)目录下建/tenant-park/prd/flink/checkpoints文件夹
hive表路径:hdfs://nameservice/tenant-park/dev/databases/park_dev
hdfs dfs -ls hdfs://nameservice/tenant-park/prd/flink
sudo -u hdfs hive
进入到hive库建表(注:先建hbase的表)
查看hive表详细属性:desc formatted test;
进入hbase:hbase shell
查看日志:yarn logs -applicationId application_1648548594494_0212
终止任务:yarn application -kill application_1639965768073_0010
flink任务启动命令:
/opt/cloudera/parcels/FLINK-1.9.2-BIN-SCALA_2.11/lib/flink/bin/flink run -d -m yarn-cluster -ynm 任务名 -ytm 1024 -ys 1 -yqu “root.park_test” --class main方法类全路径 服务器上jar目录 -profile test -checkpointEnable false
spark任务启动命令:
/opt/cloudera/parcels/CDH/bin/spark-submit --master yarn --deploy-mode cluster --num-executors 6 --executor-cores 4 --executor-memory 6G --queue root.park_product
–conf spark.yarn.submit.waitAppCompletion=false
–jars /opt/cloudera/parcels/CDH/lib/hive/lib/hive-hbase-handler-2.1.1-cdh6.2.0.jar
–class main方法类全路径 服务器上jar目录 “20211210000000”
sleep 10m
1、修改了主机器的/app/openresty/nginx/conf/vhost/xxl-job-admin.conf
2、配置/etc/hosts和/etc/profile
3、修改profile配置
添加:
export NODE_HOME=/app/node-v10.16.0-linux-x64
export NODE_PATH=/app/node-v10.16.0-linux-x64/node_global/lib/node_modules
export PATH=
P
A
T
H
:
PATH:
PATH:NODE_HOME/bin
export HADOOP_HOME=“/opt/cloudera/parcels/CDH”
export HIVE_HOME=“/opt/cloudera/parcels/CDH/lib/hive”
export HBASE_HOME=“/opt/cloudera/parcels/CDH/lib/hbase”
export HCAT_HOME=“/opt/cloudera/parcels/CDH”
export HADOOP_CONF_DIR=“/opt/cloudera/etc/hive-conf”
export HIVE_CONF=“/opt/cloudera/etc/hive-conf/”
export YARN_CONF_DIR=“/opt/cloudera/etc/hive-conf”
export FLINK_HOME=/opt/cloudera/parcels/FLINK-1.9.2-BIN-SCALA_2.11/lib/flink
export PATH=
P
A
T
H
:
PATH:
PATH:FLINK_HOME/bin
export CDH_MR2_HOME= H A D O O P H O M E / l i b / h a d o o p − m a p r e d u c e e x p o r t P A T H = HADOOP_HOME/lib/hadoop-mapreduce export PATH= HADOOPHOME/lib/hadoop−mapreduceexportPATH={JAVA_HOME}/bin: H A D O O P C O N F D I R : {HADOOP_CONF_DIR}: HADOOPCONFDIR:{HADOOP_HOME}/bin: H A D O O P H O M E / s b i n : {HADOOP_HOME}/sbin: HADOOPHOME/sbin:{HBASE_HOME}/bin: H I V E H O M E / b i n : {HIVE_HOME}/bin: HIVEHOME/bin:{HCAT_HOME}/bin:${PATH}
4、source /etc/profile
5、在安装的CDH目录下
拷贝etc文件到/opt/cloudera下
修改里面的四个xml文件的节点域名配置
6、新建文件夹:sudo -u hdfs hdfs dfs -mkdir hdfs://nameservice/hbase
删除hdfs文件:hadoop fs -rm -r -skipTrash /folder_name
(先source)目录下建文件夹
/tenant-park/prd/databases/park_prd
/tenant-park/prd/flink/checkpoints
/tenant-park/prd/flink/savepoints
查看/user目录下有没有hdfs子目录,没有就手动创建
8、创建hive和hbase表(先新建hbase表)
赋权:sudo -u hdfs hdfs dfs -chown hdfs /tenant-park
sudo -u hdfs hdfs dfs -chown 777 /user/flink
sudo -u hdfs hive(进入hive)
删除hive库:drop database db_hive cascade;
创建hive库:create database park_prd;
进入hive库:use park_prd;
查看hive表结构:show create table ddi_table;
9、启动任务
赋权flink目录:chmod -R 777 /opt/cloudera/parcels/FLINK/lib/flink/bin
坑:user=root, access=WRITE, inode=“/user”:hdfs:supergroup:drwxr-xr-x
解决:sudo -u hdfs hadoop fs -chmod -R 777 /user
9、xxx-job机器配置:
datax目录配置拷贝及修改
~:修改/app/datax/bin目录下的datax2.py的数据库配置,以及hive数据库节点配置
执行器配置:http://ip:端口/,http://ip:端口/
拷贝beeline_dc文件到app目录下,并更改文件的hive连接配置
node文件夹拷贝到app目录下
nodejs里面配置的…/…/park_data…:需要在/data/applogs/xxl-job目录下添加对应的js文件,修改js文件里面的数据库配置
10、
hives数据导出到本地:
insert overwrite local directory ‘/tmp/export_db/’ select * from ddi_table;
去分隔符的方式:
insert overwrite local directory ‘/tmp/export_db/’ row format delimited fields terminated by ‘\t’ select * from ddi_table;
hives数据导入:
注:Hive 3.x系列不支持load data 命令向内部表导入数据
1.创建外部表
2.创建临时表再用 select 方式导入
删除hive表:
drop table if exists ddi_test;
例如:
1、先创建外部表:CREATE TABLE ddi_test
(
id
string,
type_code
string,
type_name
string)
row format delimited fields terminated by ‘\t’ stored as textfile;
2、把本地的文件导入到外部表:
load data local inpath ‘/user/export_db/1.txt’ into table ddi_test;
3、再将外部表的数据导入到内部表:
insert into table ddi_table select * from ddi_test;
注:
hadoop fs -chmod -R 777 /user 能让权限变成最高权限,能更改drwxr-xr-x为drwxrwxrwx
切换到root账号
sudo -i
hbase数据迁移:
1、进入hbase:hbase shell
2、snapshot ‘要迁移的表’, ‘备份的表名’
#查看创建的快照,可用list_snapshots命令
hbase> list_snapshots
#如果快照创建有问题,可以先删除,用delete_snapshot命令
hbase >delete_snapshot ‘TEST_DAY’
3、在原集群机器执行:
hbase org.apache.hadoop.hbase.snapshot.ExportSnapshot
-snapshot ODS_ENERGY_POI_DATA
-copy-from hdfs://nameservice/hbase
-copy-to hdfs://ip地址/hbase
-mappers 20
-bandwidth 20
注:
源数据机器:-copy-from hdfs://nameservice/hbase
目标迁移机器:-copy-to hdfs://ip地址/hbase \
4、到目标机器进入hbase执行数据导入:
两种方式:
方式1:会覆盖原表device
hbase shell
disable ‘TEST_DAY’
restore_snapshot ‘snapshot_src_table’
enable ‘TEST_DAY’
方式2:恢复到新表device_new
clone_snapshot ‘TEST_DAY’,‘TEST_DAY’
===============================================================
删除hbase表:
disable ‘TEST_DAY’
drop ‘TEST_DAY’
清空表数据:truncate ‘表名’
删除:rm -rf /home/test.sql
打包:tar -zcvf export.tar.gz /home/export111.hql /home/export_db
解压:tar -zxvf fenci.py.tar.gz -C pythontab/
文件上传到另一台服务器:scp /home/test.tar.* root@ip地址:/home/
坑:PleaseHoldException: Master is initializing错误
解决:进入zookeeper的客户端,把zookeeper里面的hbase 全部删掉
cd /opt/cloudera/parcels/CDH/lib/zookeeper/bin
./zkCli.sh
查看是否又hbase:ls /
查看删除命令:help
删除hbase:rmr /hbase
重启CDH