大数据开源项目众多,何况还会经常涉及Linux,k8s相关的系统方面的内容,其中所有涉及到的命令更是繁多到已非人力可以记住的地步,每次使用再去查找真的是不胜其烦,所以一次将使用到的相关组件的命令总结记录下来,以备查找。
hive
1.动态分区个数默认为100,增加动态分区的数目,需要设置的参数
FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Spark job failed due to: Job aborted due to stage failure:
Aborting TaskSet 1.0 because task 0 (partition 0)
cannot run anywhere due to node and executor blacklist
需要设置参数:
set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict; set hive.exec.max.dynamic.partitions.pernode=10000; set hive.exec.max.dynamic.partitions=10000; set hive.exec.max.created.files=10000;
2.hive分割符记录
3. hive自定义函数,创建永久函数命令
create function hive2kafka as 'udf.HiveUDF' using jar 'hdfs://ip:8020/user/hive/jars/hiveUdf.jar'
create function 函数名字 as 类路径 using jar 'hdfs://ip:8020/user/hive/jars/hiveUdf.jar'
这样创建好hive的永久函数后,以后需要修改改函数的功能就只需要修改对应的jar,后替换掉hdfs上原有的jar就可以了;
此处需要注意:hive的永久函数在创建的时候需要指定库名,如果不指定就是默认在当前库下创建,如果后期不在创建的库下使用的话,则需要库名.函数名 来使用永久函数
4.启动beeline客户端的shell命令
beeline -u jdbc:hive2://localhost:10000
5.hive有关的基础SQL语法
--查看hive中的已经有的函数
show functions;
--描述具体的函数作用
desc function add_months(函数名)
-- 查看表结构
desc table_name
--hive库中有表:强制删除hive中库
DROP DATABASE IF EXISTS 数据库名 CASCADE;
--显示表的建表语句
show create table table_name;
clickhouse
1.命令启动clickhouse查询
clickhouse-client --param_parName="[1, 2]" -q "SELECT * FROM table WHERE a = {parName:Array(UInt16)}"
2.将CSV数据导入到clickhouse的表中
cat /tmp/z/scene.csv | clickhouse-client -h ip --port 9000 -u username --password password --query="INSERT INTO common.scene_enum_dim format CSV"
3.修改列的注释语法
alter table dev_dws.dws_guide_client_group_d comment column dt '统计日期;';
添加就是修改字段列的注释内容
4.更新语句
ALTER TABLE city UPDATE area='South' WHERE city='wuhan';
Flink
1.命令触发savepoint的保存
./bin/flink savepoint <jobId> [savepointDirectory]
任务从savepoint恢复
./bin/flink run -s <savepointPath> [OPTIONS] <xxx.jar>
SET execution.savepoint.path=/tmp/flink-savepoints/savepoint-cca7bc-bb1e257f0dab;
alter table user modify column user_name Nullable(String);
kafka
1.查看kafka集群有多少个topic
bin/kafka-topics.sh --zookeeper 10.150.10.15:2181 --list
2.启动消费者命令
bin/kafka-console-consumer.sh --bootstrap-server node1:9092,node2:9092,node3:9092 --from-beginning --topic topicName
shell
1.文件传输命令 rsync$scp
rsync flink-conf.yaml root@10.150.60.15:/data/flink/conf/ 将本机拷贝到10.150.60.15下
rsync work@192.168.0.10:/home/work/source.txt /home/work/ #把192.168.0.10机器上的source.txt文件拷贝到本地的/home/work目录下
scp /home/work/source.txt work@192.168.0.10:/home/work/ #把本地的source.txt文件拷贝到192.168.0.10机器上的/home/work目录下
scp work@192.168.0.10:/home/work/source.txt /home/work/ #把192.168.0.10机器上的source.txt文件拷贝到本地的/home/work目录下
2. shell中的if语法
3.awk 和sed命令获取需要的返回值使用案例
ls -l | awk '{print $5}' | sed -n '2p'
解释
awk 是文本处理命令,print获取你想要的第几列,sed -n 后指定你要获得的第几行
要注意的是中括号的两边都有空格
3.sed命令查看日志
--------开源不断,更新不止......
迪答 公众号