hadoop
文章平均质量分 92
IT届的peng宇宴
这个作者很懒,什么都没留下…
展开
-
hive分区表新增字段(add columns)后旧分区报错/字段无法写入(CASCADE)
1.问题描述日常工作中我们经常会给hive表新增字段,常见的新增方式多为:ALTER TABLE db.table_test add columns (new string comment '我是新字段') ;如果我们的表是分区表,那常常就会出现一些问题:查询旧分区时会莫名其妙的出现 FAILED:Execution Error,return code 2 from XXXXXX 等报错insert overwrite时 旧分区新增的字段无法更新2.解决办法通过查询官方文档,可以发现官方原创 2020-09-04 17:40:34 · 5494 阅读 · 0 评论 -
一文带你了解亿级流量外卖平台-数仓分层架构
目录一.概述1 什么是数据仓库?2 为什么要设计数据分层?3 数据仓库有什么特点?二.分层架构1 常见通用的数仓分层2 外卖数仓分层2.1 分层情况2.2 不同层级数据特点一.概述在阅读本文之前,我们先来了解几个基本的概念。1 什么是数据仓库?数据仓库(Data Warehouse)简称DW或DWH,是数据库的一种概念上的升级,可以说是为满足新需求设计的一种新数据库,而这个数据库是需容纳更多的数据,更加庞大的数据集。数据仓库主要是用于数据挖掘和数据分析,让不同来源的数据能够联系在一起,为消灭消息孤原创 2020-09-04 15:56:22 · 1010 阅读 · 0 评论 -
Oozie与DataX集成数据同步(Flask框架版)
目录1.简介2.方案架构3.实施过程3.1 首先将测试代码部署到DataX主机3.2 在DataX主机调起一个http接口3.3 编写一个shell脚本来调用DataX主机的接口3.4 Oozie调起任务1.简介基于DataX执行的ETL调度任务我们常常通过Crontab来进行批量调度。这种方法不方便进行集中化管理,且对于从数据仓库同步到外部数据库的任务无法做到上下游依赖,集成到Oozie中即可解决这样的问题。2.方案架构主要集成方法:使用Oozie自带的shell脚本功能,通过调用接口的方式来执行原创 2020-07-15 17:44:11 · 1567 阅读 · 0 评论 -
hive离线数仓数据采集——基于canal的binlog数据同步方案
目录1.简介2.方案架构3.离线还原数据3.1.数据落盘至hdfs3.2 Merge操作3.3 Merge sql 代码3.3.1 首先创建一个快照表来存放test库的binlog日志3.3.2 创建一个待还原的ods层hive表3.3.3 在hive中还原出与mysql相同的数据(binlog+历史数据)3.3.3.1 binlog demo3.3.3.2 全量数据合并3.3.3.3 写入数据(同时过滤掉mysql中已删除的记录)1.简介在离线数仓中,我们常常会把DB数据以及日志数据抽取到数仓的ODS原创 2020-05-25 18:27:12 · 3571 阅读 · 1 评论 -
Hive Lateral View explode列为空时导致数据异常丢失
目录1.问题描述2.查找原因3.解决办法(建议使用方法二)3.1 方法一3.2 方法二1.问题描述日常工作中我们经常会遇到一些非结构化数据,因此常常会将Lateral View 结合explode使用,达到将非结构化数据转化成结构化数据的目的,但是该方法对应explode的内容是有非null限制的,否则就有可能造成数据缺失。SELECT name,infoFROM ( SELECT name, split(info_list,',') as info_arrary原创 2020-05-21 17:21:28 · 2340 阅读 · 2 评论 -
[python]数据同步工具DataX之Mysql同步数据至Hive (下)
目录4.告警邮件配置5.对执行成功的任务做标记6.定时调度配置上文请点击:[python]数据同步工具DataX之Mysql同步数据至Hive (上)4.告警邮件配置如果我们配置的是ETL定时任务,当DataX任务调度结束后,往往需要了解运行的结果是什么。因此我们需要为调度任务增加一个报错邮件告警的功能(任务正常执行的话就不再发送邮件),便于我们及时处理报错的任务。这里我们主要使用pyth...原创 2020-05-07 18:38:19 · 1035 阅读 · 0 评论 -
[python]数据同步工具DataX之Mysql同步数据至Hive (上)
目录1、DataX简介2 、下载安装2.1 下载2.2 传输2.3 测试3、配置json (以mysql同步至hdfs为列)3.1 配置数据库相关json信息3.2 配置表结构及抽取逻辑相关json信息3.3 对准备好的参数进行json填充3.4 测试json能否正常执行1、DataX简介DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、S...原创 2020-04-28 18:33:27 · 1752 阅读 · 4 评论