数据与后端架构提升之路
没人会把我们变的越来越好,时间也只是陪衬。支撑我们变的越来越好的是我们自己不断进阶的才华,修养,品行以及不断的反思和修正
展开
-
ID Mapping技术解析:从Redis到Spark GraphX的演进与应用
本文深入探讨了ID Mapping技术在处理多设备、多平台用户标识不一致问题中的应用。首先介绍了ID Mapping的背景和重要性,然后详细阐述了基于Redis和Spark GraphX的两种ID Mapping方案,包括它们的实现思路、具体代码示例以及在实际生产环境中的应用。最后,文章提供了相关资料链接,为读者提供了进一步学习和实践的资源。原创 2024-01-28 18:54:14 · 452 阅读 · 0 评论 -
数据可视化与分析:下钻、上卷与转轴操作详解
本文详细解释了数据可视化中的下钻、上钻和转轴操作,通过XMind、豌豆BI和Tableau等工具的实际应用案例,展示了如何聚焦特定数据分支、分析数据关联性以及转换数据布局,以优化数据分析过程。下钻:从当前数据往下展开下一层数据。例如:(某数据的分类下面分为品名)从分类列表展开到品名列表。 上钻、下钻统称钻取。切片:展现同一层面的数据。如上述的产品。转轴:这些应该属于查询、展现范畴原创 2021-08-30 16:39:50 · 10397 阅读 · 0 评论 -
探究公有云中的巨人:深入分析大数据产品的架构设计
服务器选择:托管IDC、混合云、公有云,基于需求、预算、技术能力和业务目标。原创 2023-12-28 17:36:54 · 1004 阅读 · 1 评论 -
构建高效数据中台:集群规划与搭建的最佳实践指南
公司自建大数据服务器集群原创 2023-12-27 22:46:24 · 954 阅读 · 1 评论 -
设计之美:探究数据中台核心调度模块的精髓
设计一个分布式定时调度系统,支持重试机制和DAG(有向无环图)的管理,需要考虑的关键点原创 2023-11-28 19:59:18 · 1135 阅读 · 1 评论 -
数据中台之用户画像
用户画像应用领域较为广泛,适合于各个产品周期,从新用户的引流到潜在用户的挖掘、 从老用户 的培养到流失用户的回流等。通过挖掘用户兴趣、偏好、人口统计特征,可以 直接 作用于提升营销精准 度、推荐匹配度,最终提升产品服务和企业利润。还包括广告投放、产品布局和行业报告等。原创 2023-11-21 23:25:46 · 471 阅读 · 0 评论 -
构建OneService:打造高效、安全、灵活的企业级数据服务平台
数据服务(OneService)作为统一的数据服务出口,实现了数据的统一市场化管理,有效地降低数据开放门槛的同时,保障了数据开放的安全。原创 2023-11-30 00:59:36 · 576 阅读 · 0 评论 -
SQL分析与优化:掌握数据中台的关键技巧
通过Jupyter Notebook的HTTP API与Notebook实例进行交互,执行代码、获取输出等原创 2023-11-08 12:34:37 · 1631 阅读 · 0 评论 -
数据中台之数据建模工程实操
数据中台之数据建模工程实操原创 2023-11-08 11:00:26 · 693 阅读 · 0 评论 -
数据中台之数据质量
数据质量设计要点原创 2023-11-07 21:04:26 · 184 阅读 · 0 评论 -
数据中台之数据集成平台的数据抽取
数据抽取是数据集成平台中一个非常重要的功能,主要负责不同数据源和不同数据库的数据同步原创 2021-12-06 21:37:40 · 2643 阅读 · 0 评论 -
数据中台之数据建模三部曲
数据建模是数据中台中重要的开发环节,建模是否准确关系到后期长久的发展。所以需要科学的方法论来指导开发原创 2021-10-23 14:21:37 · 2146 阅读 · 0 评论 -
数据中台之数据命名规范
模型分层(1) 词根(2) 表命名规范通用规范表命名规则(3) 指标命名规范原创 2021-10-12 14:15:34 · 2408 阅读 · 0 评论 -
数据中台之SQL数据清洗
目录前言数据清洗的准则使用 SQL 对预测数据集进行清洗检查完整性检查全面性对清洗之后的数据进行可视化前言SQL 可以帮我们进行数据处理,总的来说可以分成 OLTP 和 OLAP 两种方式。OLTP 称之为联机事务处理,我们之前讲解的对数据进行增删改查,SQL 查询优化,事务处理等就属于 OLTP 的范畴。它对实时性要求高,需要将用户的数据有效地存储到数据库中,同时有时候针对互联网应用的需求,我们还需要设置数据库的主从架构保证数据库的高并发和高可用性。OLAP 称之为原创 2021-10-08 18:50:30 · 1181 阅读 · 0 评论 -
数据中台之底表驱动开发
本文是博主正在开发的数据中台的总体功能设计概览和建模方法论原创 2021-09-29 16:53:21 · 495 阅读 · 0 评论 -
数据中台之多维度模型实例:Kylin架构原理
Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。原创 2021-09-27 09:32:17 · 386 阅读 · 0 评论 -
数据中台之数据采集
采集方式总览:接口数据采集,数据源数据同步采集原创 2021-09-13 10:43:03 · 1488 阅读 · 0 评论 -
数据中台之数据地图
元数据管理系统的核心应用价值在于数据地图和数据血缘。在解决数据的“可供应性”之后,企业应该帮助业务更便捷、更准确地找到它们所需要的数据,这就需要打造一个能够满足用户体验的“数据地图”。原创 2021-08-30 23:36:38 · 1409 阅读 · 0 评论 -
数据中台之低代码平台
数据中台中有一块比较常见的模块就是代码平台,小公司可以考虑利用开源项目快速集成低代码的功能,但是业务场景一复杂可能无法完全适用。规模大一点的公司如果自研代码平台也需要一定的成本,低代码平台不是数据中台的必要模块可以根据实际业务场景做取舍。原创 2021-08-10 06:56:06 · 1744 阅读 · 0 评论 -
数据中台之调度系统技术选型和调研
对于数据中台的调度模块,想要快速集成开发的话首推DolphinScheduler,用可视化操作界面,跨语言,同时高可用原创 2021-08-06 12:04:28 · 598 阅读 · 0 评论 -
CHD5.3.6在线安装和维护踩坑指南
cdh5虽然已经停止在线安装,但是一些企业之前还是有用到的,本文记录一些实际坑点原创 2021-07-30 01:51:40 · 494 阅读 · 0 评论 -
数据中台之元数据管理系统的搭建
元数据可以划分为三类元数据:技术元数据、业务元数据和管理元数据。这三种元数据的具体描述如下:l技术元数据 技术元数据是描述经营分析系统中技术领域相关概念、关系和规则的数据,主要包括对数据结构、数据处理方面的特征描述,覆盖经营分析系统数据源接口、数据仓库与数据集市存储、ETL、OLAP、数据封装和前端展现等全部数据处理环节;l 业务元数据 业务元数据是描述经营分析系统中业务领域相关概念、关系和规则的数据,主要包括业务术语、信息分类、指标定义和业务规则等信息;PDF 文件使用 "pdfFacto原创 2021-06-21 07:56:25 · 1700 阅读 · 5 评论 -
图数据库 Neo4j Java Api 的使用
Neo4j 提供 JAVA API 以编程方式执行所有数据库操作。它支持三种类型的API原创 2021-07-08 19:39:43 · 1024 阅读 · 0 评论 -
数据中台之数据血缘的具体实现
如果采集后的血缘存储在mysql等传统数据中,随着采集sql的增多很快会出现性能瓶颈,而且不易查询。所以本文基于hive hook和图数据库neo4j来实现数据血缘。基本思路是在hive的执行引擎操作完成之后利用hook进行拦截,判读是否是有效的生成血缘的sql语句,是的话记录发送一条kafka消息,并且在消费RocketMq消息时入库到mysql和neo4j中。mysql也存一份是为了进行数据备份,防止neo4j宕机引起的数据丢失。原创 2021-06-26 23:34:33 · 4995 阅读 · 2 评论 -
数据中台建设和数字化转型的意义
如今数据中台和企业数字化转型如火如荼,可是我们为什么花费如此沉重的成本建设数据中台和进行数字化转型呢?小公司有没有必要进行这种宏观战略呢?本文主要解决这些上层建筑设计问题。原创 2021-06-21 20:06:08 · 819 阅读 · 1 评论 -
数据中台之业务闭环和赋能
本文我们围绕现在的行业现状,简要地对数据中台进行全面的认知升级。多数纯粹的大数据创业公司服务主体是大型国企的外包形式,这类公司如果自己没有数据运营能力,盲目建设数据中台的话根本无法实现对业务赋能,出路在于整合足够多的行业案例形成自己独有的中台规范。有一定业务积累的公司凭借其先天的数据量,或自研或外包,反而有更多的实践机会来实现反哺业务。原创 2021-06-27 16:07:11 · 1116 阅读 · 1 评论