
大数据/离线数仓(Hive)
文章平均质量分 63
泛函+变分学
u013250861
这个作者很懒,什么都没留下…
展开
-
大数据-离线数仓-工作流任务调度器:Ooize、Azkaban【单独使用时azkaban优于oozie;结合HUE来使用时ooize要比azkaban更加方便】
大数据-工作流任务调度器:Azkaban原创 2021-01-12 22:59:31 · 1614 阅读 · 0 评论 -
大数据-Hive-计算引擎:MapReduce、TEZ、Spark【Hive可选用的三大计算引擎】
大数据-计算引擎:MapReduce、TEZ、Spark【Hive可选用的三大计算引擎】原创 2021-02-01 22:48:12 · 1236 阅读 · 1 评论 -
大数据-离线数仓-工作流调度-工具:DolphinScheduler【可视化DAG工作流任务调度平台】【全能、轻量级、功能强大、美观、不需要自己写flow脚本、直接在web页面操作、国产、中文文档】
伪集群模式(Pseudo-Cluster)是在单台机器部署 DolphinScheduler 各项服务,该模式下master、worker、api server、logger server等服务都只在同一台机器上。需要注意的是,在DolphinScheduler中创建队列,并不会影响到Yarn调度器的队列配置。默认情况下,管理员只有授权和用户管理等权限,而普通用户只有创建项目,定义工作流、执行工作流等权限。在任务执行时,可以将任务分配给指定Worker组,最终由该组中的Worker节点执行该任务。原创 2023-04-11 23:05:31 · 1896 阅读 · 1 评论 -
大数据-离线数仓-工作流调度:Hive的5层处理脚本(ODS-DIM-DWD-DWS-ADS)组成一个工作流【每天0:30待昨日数据完全采集到HDFS后,自动开启工作流处理数据】
大数据-数仓-工作流调度:Hive的5层处理脚本(ODS-DIM-DWD-DWS-ADS)组成一个工作流【每天0:30待昨日数据完全采集到HDFS后,自动开启工作流处理数据】原创 2023-04-11 21:01:40 · 224 阅读 · 0 评论 -
大数据-离线数仓-工作流调度-工具:Airflow【优点:界面美观】【python写的】
大数据-数仓-工作流调度-工具:Airflow【优点:界面美观】【python写的】原创 2023-04-11 21:00:45 · 222 阅读 · 0 评论 -
大数据-离线数仓-工作流调度-工具:Azakaban【开源】【优点:全能、轻量级、安装简单、使用简单、稳健】【缺点:需要自己编写flow文件,上传到平台后才能使用】
大数据-数仓-工作流调度-工具:Azakaban【开源】原创 2023-04-11 20:59:46 · 129 阅读 · 0 评论 -
大数据-离线数仓-工作流调度-工具:Ozzie【CHD平台自带】【重量级,功能强大,使用复杂,不易安装】
大数据-数仓-工作流调度-工具:Ozzie【CHD平台自带】原创 2023-04-11 20:57:22 · 308 阅读 · 0 评论 -
数仓可视化工具:Superset
Apache Superset是一个现代的数据探索和可视化平台。它功能强大且十分易用,可对接各种数据源,包括很多现代的大数据分析引擎,拥有丰富的图表展示形式,并且支持自定义仪表盘。原创 2023-04-10 23:32:55 · 626 阅读 · 0 评论 -
Spark on Hive【S负责SQL解析和优化(SparkSQL)、计算引擎;H只负责存储元数据;主流方式】、Hive on Spark【H负责SQL解析和优化、存储元数据;S充当计算引擎】
具体可以理解为spark通过sparkSQL使用hive语句操作hive表,底层运行的还是sparkRDD,hive只作为存储角色,spark 负责sql解析优化,底层运行的还是sparkRDD。1.通过sparkSQL,加载Hive的配置文件,获取Hive的元数据信息。hive既作为存储又负责sql的解析优化,spark负责执行。2.获取到Hive的元数据信息之后可以拿到Hive表的数据。这里Hive的执行引擎变成了spark,不再是MR。3.通过sparkSQL来操作Hive表中的数据。原创 2023-04-10 23:20:06 · 126 阅读 · 0 评论 -
Hive、HBase对比【相同:HDFS作为底层存储】【区别:①Hive用于离线数据的批处理,Hbase用于实时数据的处理;②Hive是纯逻辑表,无物理存储功能,HBase是物理表,放非结构数据】
1. Hive是hadoop数据仓库管理工具,严格来说,不是数据库,本身是不存储数据和处理数据的,其依赖于HDFS存储数据,依赖于MapReducer进行数据处理。2. Hive的优点是学习成本低,可以通过类SQL语句(HSQL)快速实现简单的MR任务,不必开发专门的MR程序。3. 由于Hive是依赖于MapReducer处理数据的,因此有很高的延迟性,不适用于实时数据处理(数据查询,数据插入,数据分析),适用于离线数据的。原创 2023-03-05 23:03:51 · 2683 阅读 · 0 评论 -
大数据-数据仓库(Data Warehouse):概述【面向主题的、集成的、相对稳定的、反映历史变化的数据集合;是一个数据处理过程(清洗、转义、分类、重组、合并、拆分、统计等)】
大数据-数据仓库(Data Warehouse):面向主题的、集成的、相对稳定的、反映历史变化的数据集合;是一个数据处理过程(清洗、转义、分类、重组、合并、拆分、统计等)原创 2021-01-15 00:12:50 · 8535 阅读 · 0 评论 -
大数据-数仓-离线数据分析-Hive(一):简介【海量结构化数据分析工具】【基于Hadoop】【将结构化的数据文件映射为一张表,并提供HQL查询功能】【本质:将HQL转化成MR程序】【慢;无法实时】
Hive:由Facebook开源用于解决海量结构化日志的数据统计工具。Hive是基于Hadoop的一个数据仓库工具,将结构化的数据文件映射为一张表,并提供类SQL(HQL)查询功能。1)用户接口:ClientJDBC/ODBC(jdbc访问hive)、2)元数据:Metastore元数据包括:表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等;默认存储在自带的derby数据库中,推荐使用MySQL。原创 2023-04-01 21:06:15 · 383 阅读 · 0 评论 -
大数据-数仓-离线数据分析-Hive(二):安装【元数据库用MySQL】【单节点,不需要集群】【启动脚本】
rw-r--r--. 1 root root 609556480 3月 21 15:41 mysql-5.7.28-1.el7.x86_64.rpm-bundle.tar。2)将/opt/software/目录下的apache-hive-3.1.2-bin.tar.gz到/opt/module/目录下面。在hive命令行交互窗口中,切换数据库后,不会提示当前所在数据库是哪个,并且在列出的查询结果中也不会带有列名的信息,使用中多有不便。原创 2023-04-01 21:07:13 · 142 阅读 · 0 评论 -
大数据-数仓-数仓工具:Hive(离线数据分析框架)【替代MapReduce编程;插入、查询、分析HDFS中的大规模数据;机制是将HiveSQL转化成MR程序;不支持修改、删除操作;执行延迟较高】
Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。Hive十分适合对数据仓库进行统计分析。Hive数据仓库⎩⎨。原创 2021-01-14 00:13:37 · 1032 阅读 · 0 评论 -
大数据-案例-离线数仓-在线教育:MySQL(业务数据)-ETL(Sqoop)->Hive数仓【ODS层-数据清洗->DW层(DWD-统计分析->DWS)】-导出(Sqoop)->MySQL->可视化
一、访问咨询主题看板1. 需求分析目的: 分析每一个调研需求需要计算什么指标, 以及计算这个指标需要通过那些维度,而且还包括计算这个需求涉及到那些表和那些字段需求1: 统计指定时间段内,访问客户的总数量。能够下钻到小时数据指标: 访问量维度: 时间维度: 年 季度 月 天 小时涉及到哪些表: web_chat_ems_2019_12 涉及到哪些字段: 时间维度: create_time 说明: 发现create_time字段中包含有年 月 天 小时原创 2021-07-13 13:51:35 · 2240 阅读 · 0 评论 -
大数据-案例-离线数仓-电商:【MySQL(业务)-ETL(Kettle)】+【前端JS埋点->日志->Flume->HDFS->ETL(SparkRDD)】->Hive数仓->MySQL->可视化
大数据-BI案例(二)-电商:数据仓库+OLAP【MySQL-ETL(Kettle)-> Hive(ODS层-数据清洗->DW层(DWD-统计分析->DWS))-导出结果->MySQL】-> 可视化原创 2021-01-30 23:12:46 · 2578 阅读 · 0 评论 -
大数据-数据仓库:快照表、拉链表,全量表,增量表
大数据-数据仓库:全量表,增量表,拉链表,流水表,快照表原创 2021-02-06 23:54:04 · 3884 阅读 · 0 评论 -
大数据-Hive:启动metastore和hiveserver2脚本
前台启动的方式导致需要打开多个shell窗口,可以使用如下方式后台方式启动nohup放在命令开头,表示不挂起,也就是关闭终端进程也会继续保持运行状态/dev/null是linux文件系统中的一个文件,被称为黑洞,所有写入该文件的内容会被自动丢弃。文件描述符0标准输入1标准输出2标准错误2>&1表示将错误重定向到标准输出上放在命令结尾,表示后台运行$ nohup [xxx命令操作] 1> file 2>&1 &原创 2023-04-02 01:08:09 · 447 阅读 · 0 评论