大数据框架命令使用总结记录

        大数据开源项目众多,何况还会经常涉及Linux,k8s相关的系统方面的内容,其中所有涉及到的命令更是繁多到已非人力可以记住的地步,每次使用再去查找真的是不胜其烦,所以一次将使用到的相关组件的命令总结记录下来,以备查找。

hive

1.动态分区个数默认为100,增加动态分区的数目,需要设置的参数

FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Spark job failed due to: Job aborted due to stage failure: 
Aborting TaskSet 1.0 because task 0 (partition 0)
cannot run anywhere due to node and executor blacklist

需要设置参数:

set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;
set hive.exec.max.dynamic.partitions.pernode=10000;
set hive.exec.max.dynamic.partitions=10000;
set hive.exec.max.created.files=10000;

2.hive分割符记录

3. hive自定义函数,创建永久函数命令

create function hive2kafka as 'udf.HiveUDF' using jar 'hdfs://ip:8020/user/hive/jars/hiveUdf.jar'

create function 函数名字 as 类路径 using jar 'hdfs://ip:8020/user/hive/jars/hiveUdf.jar'

 这样创建好hive的永久函数后,以后需要修改改函数的功能就只需要修改对应的jar,后替换掉hdfs上原有的jar就可以了;

此处需要注意:hive的永久函数在创建的时候需要指定库名,如果不指定就是默认在当前库下创建,如果后期不在创建的库下使用的话,则需要库名.函数名 来使用永久函数

4.启动beeline客户端的shell命令

beeline -u jdbc:hive2://localhost:10000

 5.hive有关的基础SQL语法

--查看hive中的已经有的函数
show functions;

--描述具体的函数作用
desc function add_months(函数名)

-- 查看表结构
desc table_name

--hive库中有表:强制删除hive中库
DROP DATABASE IF EXISTS 数据库名 CASCADE;

--显示表的建表语句
show create table table_name;

clickhouse

1.命令启动clickhouse查询

clickhouse-client --param_parName="[1, 2]"  -q "SELECT * FROM table WHERE a = {parName:Array(UInt16)}"

 更多相关参数设置

2.将CSV数据导入到clickhouse的表中

cat /tmp/z/scene.csv | clickhouse-client -h ip --port 9000 -u username --password password --query="INSERT INTO common.scene_enum_dim format CSV"

更多文件导入clickhouse表方式

3.修改列的注释语法

alter table dev_dws.dws_guide_client_group_d comment column dt '统计日期;';

添加就是修改字段列的注释内容

4.更新语句

ALTER TABLE city UPDATE area='South' WHERE city='wuhan';

 官网参考

Flink 

1.命令触发savepoint的保存

./bin/flink savepoint <jobId> [savepointDirectory]

 任务从savepoint恢复

./bin/flink run -s <savepointPath> [OPTIONS] <xxx.jar>

更多savepoint相关操作

2.使用SQLclient从savepoint中恢复的命令

 SET execution.savepoint.path=/tmp/flink-savepoints/savepoint-cca7bc-bb1e257f0dab;

3.clickhouseSQL中修改字段的语句

alter table user modify column user_name Nullable(String);

kafka

1.查看kafka集群有多少个topic

bin/kafka-topics.sh --zookeeper 10.150.10.15:2181 --list

2.启动消费者命令

bin/kafka-console-consumer.sh --bootstrap-server node1:9092,node2:9092,node3:9092 --from-beginning --topic topicName

shell

1.文件传输命令 rsync$scp

rsync flink-conf.yaml root@10.150.60.15:/data/flink/conf/ 将本机拷贝到10.150.60.15下

rsync work@192.168.0.10:/home/work/source.txt /home/work/  #把192.168.0.10机器上的source.txt文件拷贝到本地的/home/work目录下

 scp :参考

scp /home/work/source.txt work@192.168.0.10:/home/work/  #把本地的source.txt文件拷贝到192.168.0.10机器上的/home/work目录下
  
scp work@192.168.0.10:/home/work/source.txt /home/work/  #把192.168.0.10机器上的source.txt文件拷贝到本地的/home/work目录下

2. shell中的if语法

3.awk 和sed命令获取需要的返回值使用案例

ls -l | awk '{print $5}' | sed -n '2p'

 解释

awk 是文本处理命令,print获取你想要的第几列,sed -n 后指定你要获得的第几行

要注意的是中括号的两边都有空格

3.sed命令查看日志

--------开源不断,更新不止......


 迪答 公众号

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值