大数据
相关大数据,hive,spark,kafka......
不迷信_只迷人
这个作者很懒,什么都没留下…
展开
-
Hadoop集群搭建模式和各模式问题
文章目录分布式集群的通用问题集群的搭建的集中通用模式1、单机模式2、伪分布式模式(搭建在了只有一个节点的集群中)3、分布式模式4、高可用模式5、联邦模式 分布式集群的通用问题 当前的HDFS和YARN都是一主多从的分布式架构,主从节点—管理者和工作者 问题:如果主节点或是管理者宕机了。会出现什么问题? 群龙无首,整个集群不可用。所以在一主多从的架构中都会有一个通用的问题: 当集群中的主节点宕机之后...原创 2020-04-19 18:00:22 · 228 阅读 · 0 评论 -
azkaban基础概览
https://azkaban.readthedocs.io/en/latest 文章目录一、为什么需要工作流调度器二、工作流调度实现方式三、常见工作流调度系统四、各种调度工具对比五、Azkaban 与 Oozie 对比六、Azkaban 介绍七、azkaban调度的任务有可能有那些类型 一、为什么需要工作流调度器 1、一个完整的数据分析系统通常都是由大量任务单元组成: shell 脚本程序,ja...原创 2020-04-19 17:56:02 · 258 阅读 · 0 评论 -
大数据基础一
文章目录大数据的前世今生大数据的发展史:从搜索到人工智能大数据应用领域:数据驱动一切移动计算比移动数据更划算 大数据的前世今生 一个文件系统hdfs,一个计算框架MapReduce,一个数据库系统 大数据生态体系逐渐形成,其中包括:专门将关系数据库中的数据导入导出到 Hadoop 平台的 Sqoop;针对大规模日志进行分布式收集、聚合和传输的 Flume;MapReduce 工作流调度引擎 Ooz...原创 2020-04-19 14:19:23 · 243 阅读 · 0 评论 -
Hive Metastore表结构设计分析
文章目录DatabaseTablePartitionsSDS 围绕hive的metastore的表结构进行分析: Database DBS表:column有DB_ID, DESC, DB_LOCATION_URI, NAME, OWNER_NAME, OWNER_TYPE 表示基本的DB信息,其中DB_ID是主键,关联的表有 FUNC_RU, FUNCS, DB_PRIVS, DATABASE_P...原创 2020-04-19 13:55:57 · 575 阅读 · 0 评论 -
Hive不读取下划线文件
文章目录现象原因 现象 在hive中建了一个parquet表,导入文件数据结构如下 _success 0M _commited_ 10M _started_xxx 0M part-xxx.parquet 40M ... 查询表的数据量是正确的,但是多出来三个下划线开头的文件,考虑hive是read on schema的模式,为什么不读取这几个文件呢? 原因 发现网上有人讨论过这些现...原创 2020-04-16 11:37:34 · 657 阅读 · 0 评论