离线批处理知识点汇总

1、 离线批处理:对海量历史数据进行处理和分析,生成结果数据,共下一步数据使用的过程、
2、 特点:对数据处理的实验要求不高、处理的数据量较大、处理数据格式多样、占用的计算存储资源较多、通过MR作业、Spark作业或者HQL作业实现。
3、 批处理流程:
在这里插入图片描述

4、 HDFS(分布式文件系统):基于Google发布的GFS论文设计开发特点:高容错性、高吞吐量、大文件存储(TB-PB)。适合大文件存储与访问、流式数据访问,不适合大量小文件存储、随机写入、低延迟读取。HDFS的架构:主节点(NameNode)、从节点(DataNodes)、SecondaryNameNode。HDFS常用命令 hdfs dfs -cat/-ls/-rm/-put/-get/-mkdir等。HDFS中存在回收站机制(默认是关闭的)。
5、 Hive(数据仓库软件):基于Hadoop,可以查询和管理PB级别的分布式数据。特点:灵活方便的ETL、支持MR、Tez、Spark计算引擎、可以直接访问HDFS及其Hbase、易用易编程。Hive中内部表创建时会被移动到仓库目录、删除时元数据与数据也会被一起删除,而外部表数据位置不移动,删除时也会只删除元数据。常用内置函数语法:show functions查看系统函数的用法,desc function 函数 展示函数的用法,desc function extended 函数名 详细显示函数的用法,数学函数(round()、abs()、rand()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

lovely_biu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值