1、 离线批处理:对海量历史数据进行处理和分析,生成结果数据,共下一步数据使用的过程、
2、 特点:对数据处理的实验要求不高、处理的数据量较大、处理数据格式多样、占用的计算存储资源较多、通过MR作业、Spark作业或者HQL作业实现。
3、 批处理流程:
4、 HDFS(分布式文件系统):基于Google发布的GFS论文设计开发特点:高容错性、高吞吐量、大文件存储(TB-PB)。适合大文件存储与访问、流式数据访问,不适合大量小文件存储、随机写入、低延迟读取。HDFS的架构:主节点(NameNode)、从节点(DataNodes)、SecondaryNameNode。HDFS常用命令 hdfs dfs -cat/-ls/-rm/-put/-get/-mkdir等。HDFS中存在回收站机制(默认是关闭的)。
5、 Hive(数据仓库软件):基于Hadoop,可以查询和管理PB级别的分布式数据。特点:灵活方便的ETL、支持MR、Tez、Spark计算引擎、可以直接访问HDFS及其Hbase、易用易编程。Hive中内部表创建时会被移动到仓库目录、删除时元数据与数据也会被一起删除,而外部表数据位置不移动,删除时也会只删除元数据。常用内置函数语法:show functions查看系统函数的用法,desc function 函数 展示函数的用法,desc function extended 函数名 详细显示函数的用法,数学函数(round()、abs()、rand()