离线批处理知识点汇总

lovely_biu

于 2024-07-29 16:11:54 发布

阅读量978

点赞数 16

分类专栏：大数据知识点汇总文章标签：大数据数据仓库数据库数据挖掘 bigdata

本文链接：https://blog.csdn.net/qq_40826400/article/details/140773521

版权

1、离线批处理：对海量历史数据进行处理和分析，生成结果数据，共下一步数据使用的过程、
2、特点：对数据处理的实验要求不高、处理的数据量较大、处理数据格式多样、占用的计算存储资源较多、通过MR作业、Spark作业或者HQL作业实现。
3、批处理流程：
在这里插入图片描述

4、 HDFS（分布式文件系统）：基于Google发布的GFS论文设计开发特点：高容错性、高吞吐量、大文件存储（TB-PB）。适合大文件存储与访问、流式数据访问，不适合大量小文件存储、随机写入、低延迟读取。HDFS的架构：主节点(NameNode)、从节点（DataNodes）、SecondaryNameNode。HDFS常用命令 hdfs dfs -cat/-ls/-rm/-put/-get/-mkdir等。HDFS中存在回收站机制（默认是关闭的）。
5、 Hive（数据仓库软件）：基于Hadoop，可以查询和管理PB级别的分布式数据。特点：灵活方便的ETL、支持MR、Tez、Spark计算引擎、可以直接访问HDFS及其Hbase、易用易编程。Hive中内部表创建时会被移动到仓库目录、删除时元数据与数据也会被一起删除，而外部表数据位置不移动，删除时也会只删除元数据。常用内置函数语法：show functions查看系统函数的用法，desc function 函数展示函数的用法，desc function extended 函数名详细显示函数的用法，数学函数（round()、abs()、rand（）