数据仓库
文章平均质量分 52
CesarChoy
知识创造未来~~
展开
-
初入datawork生态圈的架构
前文:越来越多小公司上云了,这个是大势所趋。现在主流是阿里云和腾讯云,此文通过分享这两个下来的感受让大家接触云平台开发。原创 2022-09-29 16:41:27 · 1430 阅读 · 1 评论 -
为什么需要职场软实力
在现有互联网技术发展速度下,三五年足够把技术更新一代,企业的最大收益就是招收一批工作三五年工作经验的人,那如何保证我们工作八年十年的竞争力呢?原创 2022-07-17 23:02:39 · 231 阅读 · 0 评论 -
数据开发与数据治理的关系
前文: 说起数据治理,可以滔滔不绝,但万变不离其宗,主要还是要对应着开发流程去理解才能模块化。当然每个点展开都是一个很宏大的议题,本文只是将开发与治理的对应关系结合起来。一、关系图 1.数据开发系统作为数据决策体系,其核心便在于指标体系的建设及其覆盖面。2.指标体系建设可分为三种建设方法,分别为科学方法选指标如OSM、分析模型如AARRR、场景化的人货物。3.一个数据开发的规范流程为:4.数据治理是一个泛题,对应着实际的开发流程:.....................原创 2022-06-28 00:59:41 · 2070 阅读 · 0 评论 -
Flink-hudi 业务思考
hudi一般用作ods入湖使用;公司简单业务展示;原创 2021-12-31 11:00:00 · 521 阅读 · 0 评论 -
画像架构思路
前文:画像体系:基于内容/商品/行为 圈选或分析人群;本文介绍的是重点介绍架构思路;让业务自助配置标签引擎实现打标,减少分析师导数工作。一、架构核心在于理解dws基础数据层建设的理解:1.多张实体表、轻度汇总的表的基础标签生成;2.根据每张基础表的基础标签,通过前端配置规则生成有效的业务标签;3.规则配置表->生成sql;是整个画像的难点。......原创 2022-05-24 17:00:25 · 131 阅读 · 0 评论 -
实时数据仓库思考总结
flink资料整理(临时)原创 2022-04-29 17:37:36 · 1616 阅读 · 0 评论 -
开源指标管理系统+多维自助理服务
开源指标管理系统+多维自助理服务原创 2022-02-22 18:24:51 · 1558 阅读 · 0 评论 -
流量主题建设思路总结
前文: 流量分析主要有两种需求;一种时多维统计分析,一种是用户行为分析(浏览数据) ;通过hudi解决数据入湖问题,再通过按两种需求拆分建设思路;指标问题如传统ads层计 算出结果导致多张汇总表无法对齐去重指标,这里主要以olap系统如doris的rollup解决数据性能及精准性问题;维度: utm、spm、区域、sku、版本号、关键字等指标:用户数、新用户数、浏览量、会话数、曝光数、点击数、点击率、平均访问深度等;加购、收藏等;相关介绍:utm参数:运营推广在第三投放广告,填写相关utm参数原创 2022-04-01 18:21:38 · 232 阅读 · 0 评论 -
数据治理项目之数据管理模板
前文: 我们可以理解为企业生产过程中,一切皆数据。 数据治理是一个很宽泛的议题,整条数据流所有的点和细枝末节都可以说是数据治理的范畴中。从数据源开始,如果业务库的业务流程不规范,数据不准确;采集上报的数据没有按规范走;那么我最终拿到的报表数据即失真没有了价值;所以说数据治理,是自底向上的,会有很多个项目;本文提供一些个人见解及数据部门建设的一些数据模板。评估、指导和监督的数据决策体系;对存量数据治理和增量数据管控的一个过程;解决数据生产、管理和使用过程中遇到的问题,完善已有的生产管理原创 2022-01-25 23:00:29 · 540 阅读 · 0 评论 -
维度建模的思考
前文: 维度建模的思考一、思考备注:1. 宽表并不是万能的,明细层可以冗余很多维度(公共+特定)和属性,但是在聚合层的时候很多属性是没有用的,特定维度在跨域的时候也会失效。2. 在聚合层,单域各种粒度/特有维度的宽表,跨域是有一致性维度的宽表,聚合层可冗余属性但大部分时候是取度量的,最后再关联公共维度表把相关维度/属性关联上。...原创 2021-04-14 00:48:47 · 180 阅读 · 0 评论 -
数仓备份
前文: 记录下。一、相关记录原创 2021-02-03 16:21:22 · 341 阅读 · 0 评论 -
Hive:cannot be cast to org.apache.hadoop.io.XXXWritable 数据类型解决方案
一、1.1 Mysql表CREATE TABLE `scrm_user_crowd` ( `id` int(11) NOT NULL AUTO_INCREMENT, `zb_id` int(11) DEFAULT NULL COMMENT '直播ID', `user_id` varchar(50) DEFAULT NULL COMMENT '用户ID', `name` varchar(255) DEFAULT NULL COMMENT '人群名称', `de...原创 2020-12-17 16:00:32 · 8228 阅读 · 2 评论 -
Kudu的介绍及使用
前文: 过往采用Hive的离线处理时效性低,计算任务过于集中,查询效率低。SparkStreaming+Hive的数据清洗线使得多套数据流过于复杂。未来的数据仓库场景越来越趋向于实时数仓。一、引入二、架构图2、架构及数据量3、文件结构4、目录结构5、读写流程及分区策略三、分区及策略四、代码1、通过Spar...原创 2020-03-27 20:48:53 · 1056 阅读 · 0 评论 -
数据仓库搭建及数据治理
前文: 大概流程~一、图原创 2020-03-08 22:16:49 · 2404 阅读 · 0 评论