数据仓库
huobumingbai1234
路漫漫其修远兮,吾将上下而求索
展开
-
flink-streaming消费kafka动态分区写入HDFS(SequenceFile)文件
主要记录下streaming模式下动态分区怎么写文件,sql模式直接写就是了,streaming模式需要自己写下分区方法。大致的数据流程是消费kafka,拆解json,数据写到hdfs(sequenceFile)路径。1、分区需要自定义,这里是读取流数据,获取分区字段package partitionassigner;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.flink.core.io.S...原创 2022-01-09 10:59:06 · 1109 阅读 · 0 评论 -
数据仓库基础知识
一、数据仓库是什么 引用百度百科:数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。 个人理解:存取公司历史数据,并按照一定规则清洗、加工为稳...原创 2018-12-07 23:17:14 · 1728 阅读 · 0 评论 -
数据仓库实践-阿里云环境
上一篇文章大致讲了数据仓库构建的理论部分,这一篇以实际工作为例,大致的整理下数据仓库的构建,也算是工作的总结;同时由于使用的是云平台,所以很多hadoop系列的技术问题基本都没有。一、工作背景 所在部门的主要业务主要做的是电商导购,主要数据分为订单业务数据和流量数据,由于不牵涉到订单结算和物流系统,所以业务相对较简单。订单数据很小,这一部分的处理不是大问题,每...原创 2018-12-17 00:12:09 · 1378 阅读 · 0 评论 -
数据仓库之拉链表实现
拉链表在实际工作中还是有使用的必要,能够大量的节省存储空间,我这次主要使用在商户信息构建,商户姓名存在改名字的可能性,但是商户id不变,下面是一个商户信息表做拉链表的例子。主要构建思路:1、首先,找到记录最早一天的商户信息作为初始状态,写入到最后使用的表中 2、然后把改名字的商户的结束日期修改下 + 每日新增的商户信息 + 改名字之后新的商户...原创 2019-07-22 20:36:07 · 1997 阅读 · 0 评论 -
计一次失败的python-udf处理PHP反序列化数据
问题背景:公司后端用的是php,后端开发爸爸存数据的时候存的是php反序列化的数据,我们数据这边需要用到这些字段的信息,想着自己处理一下。 所在环境:大数据平台使用的是阿里云的dataworks,直接函数处理是不行的,需要写个UDF,这边支持java和python的UDF,由于自己的java实在太差,所以搞不定,然后想用python处理下,由于之前写过pytho...原创 2019-09-08 13:34:47 · 331 阅读 · 0 评论 -
impala--NDV()函数
使用impala查询引擎的时候,如果count(disticnt column)数据量过大会报错,报错内容正在提取遇到以下错误的结果:org.apache.hive.service.cli.HiveSQLException: AnalysisException: all DISTINCT aggregate functions need to have the same set of pa...原创 2019-09-20 21:01:32 · 11052 阅读 · 0 评论