大数据框架命令使用总结记录

HD0do(迪答数据)

已于 2022-03-20 16:29:45 修改

阅读量2.6k

点赞数

分类专栏： bigdata 文章标签： hive spark big data 大数据 etl

于 2022-01-21 16:16:54 首次发布

本文链接：https://blog.csdn.net/HD0do/article/details/120862639

版权

bigdata 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

大数据开源项目众多，何况还会经常涉及Linux，k8s相关的系统方面的内容，其中所有涉及到的命令更是繁多到已非人力可以记住的地步，每次使用再去查找真的是不胜其烦，所以一次将使用到的相关组件的命令总结记录下来，以备查找。

hive

1.动态分区个数默认为100，增加动态分区的数目，需要设置的参数

FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Spark job failed due to: Job aborted due to stage failure:
Aborting TaskSet 1.0 because task 0 (partition 0)
cannot run anywhere due to node and executor blacklist

需要设置参数：

set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;
set hive.exec.max.dynamic.partitions.pernode=10000;
set hive.exec.max.dynamic.partitions=10000;
set hive.exec.max.created.files=10000;

2.hive分割符记录

3. hive自定义函数，创建永久函数命令

create function hive2kafka as 'udf.HiveUDF' using jar 'hdfs://ip:8020/user/hive/jars/hiveUdf.jar'

create function 函数名字 as 类路径 using jar 'hdfs://ip:8020/user/hive/jars/hiveUdf.jar'

这样创建好hive的永久函数后，以后需要修改改函数的功能就只需要修改对应的jar，后替换掉hdfs上原有的jar就可以了；

此处需要注意：hive的永久函数在创建的时候需要指定库名，如果不指定就是默认在当前库下创建，如果后期不在创建的库下使用的话，则需要库名.函数名 来使用永久函数

4.启动beeline客户端的shell命令

beeline -u jdbc:hive2://localhost:10000

5.hive有关的基础SQL语法

--查看hive中的已经有的函数
show functions;

--描述具体的函数作用
desc function add_months(函数名)

-- 查看表结构
desc table_name

--hive库中有表：强制删除hive中库
DROP DATABASE IF EXISTS 数据库名 CASCADE;

--显示表的建表语句
show create table table_name;

clickhouse

1.命令启动clickhouse查询

clickhouse-client --param_parName="[1, 2]"  -q "SELECT * FROM table WHERE a = {parName:Array(UInt16)}"

更多相关参数设置

2.将CSV数据导入到clickhouse的表中

cat /tmp/z/scene.csv | clickhouse-client -h ip --port 9000 -u username --password password --query="INSERT INTO common.scene_enum_dim format CSV"

更多文件导入clickhouse表方式

3.修改列的注释语法

alter table dev_dws.dws_guide_client_group_d comment column dt '统计日期;';

添加就是修改字段列的注释内容

4.更新语句

ALTER TABLE city UPDATE area='South' WHERE city='wuhan';

官网参考

Flink

1.命令触发savepoint的保存

./bin/flink savepoint <jobId> [savepointDirectory]

任务从savepoint恢复

./bin/flink run -s <savepointPath> [OPTIONS] <xxx.jar>

更多savepoint相关操作

2.使用SQLclient从savepoint中恢复的命令

 SET execution.savepoint.path=/tmp/flink-savepoints/savepoint-cca7bc-bb1e257f0dab;

3.clickhouseSQL中修改字段的语句

alter table user modify column user_name Nullable(String);

kafka

1.查看kafka集群有多少个topic

bin/kafka-topics.sh --zookeeper 10.150.10.15:2181 --list

2.启动消费者命令

bin/kafka-console-consumer.sh --bootstrap-server node1:9092,node2:9092,node3:9092 --from-beginning --topic topicName

shell

1.文件传输命令 rsync$scp

rsync flink-conf.yaml root@10.150.60.15:/data/flink/conf/ 将本机拷贝到10.150.60.15下

rsync work@192.168.0.10:/home/work/source.txt /home/work/  #把192.168.0.10机器上的source.txt文件拷贝到本地的/home/work目录下

scp ：参考

scp /home/work/source.txt work@192.168.0.10:/home/work/  #把本地的source.txt文件拷贝到192.168.0.10机器上的/home/work目录下
  
scp work@192.168.0.10:/home/work/source.txt /home/work/  #把192.168.0.10机器上的source.txt文件拷贝到本地的/home/work目录下

2. shell中的if语法

3.awk 和sed命令获取需要的返回值使用案例