大数据测试环境常用操作语句

1.Hdfs相关:
hdfs dfs -put 文件名 hdfs路径
举例:hdfs dfs -put application.conf /opt/data/dspAnalysis/

hdfs dfs -mkdir +hdfs路径
举例:hdfs dfs -mkdir /opt/data/dspAnalysis

Hdfs dfs -rm 文件名 hdfs dfs -rm -r 文件夹名 删除文件/文件夹
举例:Hdfs dfs -rm /opt/data/dspAnalysis/application.conf

Hdfs dfs -rm -r /opt/data/dspAnalysis

因有部分任务需要_SUCCESS,下游程序才会继续跑
Hadoop fs -touchz

/opt/hive/warehouse/dw_stg.db/log_tbl_103/log_time=201907290/_SUCCESS

2.Oozie常用命令

杀死任务
oozie job -oozie http://...:11000/oozie/ -kill workflow任务号

重启任务
oozie job -oozie http://...:11000/oozie/ -rerun coordinator任务号 -action 子任务编号

启动任务
oozie job -oozie http://...:11000/oozie/ -config job.properties -run

解除任务suspend状态
oozie job -oozie http://...:11000/oozie -resume 0010582-181010155131196-oozie-hado-W -action 77

3.Hivesql常用语句
插数语句
有一个分区:insert into table 表名 partition(dt=20200315) values(‘’,’’,’’,’’),(‘’,’’,’’,’’),(‘’,’’,’’,’’);

有多个分区:insert into table 表名 partition(dt=20200315,type=’’) values(‘’,’’,’’,’’),(‘’,’’,’’,’’),(‘’,’’,’’,’’);

查询语句(因为hive每次查询不过滤分区会全表scan,所以需要带分区做查询,节约查询效率)
Select 字段 from 表名 where dt=’’/logtime=’’;

更改分区:
ALTER TABLE dw_mdl.m_gwim_follows_info PARTITION dt=20190623 RENAME TO PARTITION dt=20190721;

删除分区:
alter table dw_stg.card_auto_use_status drop partition(dt=20190910);

修复分区
msck repair table dw_stg.card_auto_use_status;

4.Docker常用命令

新的logstash启动命令:

docker run -itd -p 9613:9600 -v /opt/docker/gwim_hyq_like/conf.d:/etc/logstash/conf.d -v /etc/hosts:/etc/hosts --restart=always --name=gwim_hyq_like 44a63fae1877

查日志命令:

Docker logs -f gwim_hyq_like

停止的容器启动命令

Docker start gwim_hyq_like

重启命令:

Docker restart gwim_hyq_like

停止命令:

Docker stop gwim_hyq_like

查看目前在跑的进程:

Docker ps

查看目前所有的进程(包含已休眠的任务)

Docker ps -a

5.kafka常用命令
kafka消费数据:
./kafka-console-consumer.sh --bootstrap-server kafka服务器名:端口号 --topic bd_ht_open --from-beginning
kafka造数据:
./kafka-console-producer.sh --broker-list kafka服务器名:端口号 --topic

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
大数据(Big Data)是指规模庞大、复杂度高且难以用传统数据处理方法进行捕捉、管理和处理的数据集合。它通常具有以下三个特征: 数据量大:大数据指的是数据集的规模非常庞大,远远超出了传统数据处理工具的能力范围。这些数据集可能包含数十亿甚至数万亿的记录。 复杂度高:大数据往往包含多种类型和格式的数据,例如结构化数据(如关系型数据库中的数据)、半结构化数据(如XML文件)和非结构化数据(如文本、图像和音频等)。这些数据的复杂性使得处理和分析变得更加困难。 处理速度快:大数据处理要求在短时间内处理和分析大规模的数据。传统的数据处理方法往往无法满足实时或近实时处理的需求。 大数据的出现主要是由于以下几个因素的影响: 数据的爆发性增长:随着互联网的普及和各种传感器、设备的广泛应用,数据的产生和积累呈现爆发式增长的趋势。 新型数据源的涌现:除了传统的结构化数据,越来越多的非结构化和半结构化数据源涌现,例如社交媒体数据、日志文件、传感器数据、地理位置数据等。 技术的进步:大数据处理的技术工具和技术方法得到了快速发展,例如分布式计算、云计算、并行处理、机器学习和人工智能等技术的应用,使得大数据的存储、管理和分析变得可行和高效。 大数据的处理和分析可以带来许多潜在的好处,包括更深入的洞察力、更准确的决策支持、更精细的个性化服务、更高效的资源利用和创新等。在各个领域,如商业、医疗、金融、交通、科学研究等,大数据正发挥着重要的作用,并为我们带来了新的机遇和挑战。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值