Ricardo_N-CSDN博客

原创如何实现OneID

OneID主要解决用户身份的统一映射和标识问题。手机上多个app，app启动时，会根据app联网上报的设备相关信息，如何识别到在用这些app的用户是同一个人。一个用户的手机、PC、平板等多个设备时，如何把用户行为信息串联到一起，从而实现把不同业务系统不同用户统一起来管理？总的来说，OneID主要解决以下问题：1.消除数据孤岛：在数字化时代，用户数据往往分散在各个平台、系统和应用中，形成数据孤岛。OneID的打通能够将这些孤立的数据连接起来，形成全面的用户画像，为企业提供更深入的用户洞察。

2025-05-06 15:47:43 293

原创如何搭建数据仓库

数据仓库的设计和建立是为了企业服务的，所以在实际的调研过程中需要与业务方或客户方一起分析需求，将数据仓库所能实现的目标和不容易解决的问题协商清楚，对于不同的需求分类进行详细分析、评估和优先级定义，补充需求文件，最好确定需求、开展建设工作、保障质量。搭建数据仓库的步骤如下：需求分析、逻辑分析、设计ODS系统、数仓建模、数据集市建模、数据源分析、数据获取和整合、应用分析和报表展现。8、数据应用分析和报表展示：数据仓库的最终价值落地，往往是通过报表实现的，它可以为企业决策和业务应用提供必要的数据支持和依据。

2025-01-03 14:49:13 457

原创 OLAP/OLTP区别

OLAP：全称online analytical processing联机分析处理，它强调对大量历史数据的分析和处理，OLAP系统通常用来查询多维数据库，以便观察数据的多个维度之间的关系，并进行复杂的计算和汇总。OLAP：通常处理大规模的历史数据，它需要快速的数据查询和复杂的统计计算，以满足用户对数据的多维分析的需求。OLAP：采用多维数据库结构，通过维度、度量、层次等数据元素来组织和管理数据，以便进行复杂的查询和分析。OLTP：更注重交易数据的实时处理，支持并发的事务处理和数据插入、更新、删除等操作。

2025-01-03 14:44:29 257

原创 Sqoop同步clob字段数据问题

sqoop同步

2024-03-15 14:48:20 531

原创宝塔面板安装docker问题

宝塔面板安装docker失败

2024-03-05 15:29:37 718 4

原创 dataX同步ck数据至hive分区表

datax数据同步增量数据进hive分区表

2024-01-08 16:10:12 892

原创 Superset数据集统计

superset数据集统计

2023-11-27 17:24:17 632

转载 CloudCanal延迟问题处理

CloudCanal社区版默认延迟由于源端实例没有任何变更而显示延迟问题，按惯性思维，容易误解为数据库同步异常有延迟，延迟实则表示mysql源库binlog从上次未有变化到现在的时间。

2023-09-04 18:11:20 909

原创全量和增量同步合并问题

如淘宝交易订单表，每天新增、变更的增量数据多达几亿条，历史累计至今的全量数据则有几百亿条，面对如此庞大的数据量，如果每天从业务系统全量同步显然是不可能的可行的方式是同步当天的增量数据，并与数据仓库中的前一天全量数据合并，获得截至当天的最新全量数据。另外，当业务系统的表有物理删除数据的操作，而数据仓库需要保留所有历史数据时，也可以选择这种方式，在数据仓库中永久保留最新全量数据快照下面我们以淘宝订单表的具体实例来说明。数据较原有student的表，数据有新增也有修改。现有学生表student_temp。

2023-08-03 11:24:29 639

原创如何理解ODS层

首先确保数据不遗漏，根据log_time分别冗余前一天最后15分钟的数据和后一天凌晨开始15分钟的数据，并用modified_time过滤非当天数据，此时会过滤掉一部分后一天凌晨开始15分钟的数据，但是还是会冗余一部分前一天的数据，由于log数据保存了多个状态的数据，所以还需要根据log_time进行降序排列，获取最新状态的记录，这样就去掉了中间状态的数据。上文提到ODS的数据来源于业务系统，且ODS落地的系统通常和业务系统是不同的，比如常见的将数据落到Hive中。该类ODS层的表是最容易维护的。

2023-08-01 15:12:09 467

原创 group concat函数应用

group_concat用法

2023-02-21 00:14:08 143

原创 flink on yarn模式下flinksql使用hive_catalog

flink on yarn 添加hive catalog

2023-02-01 12:05:43 496 1

原创集群搭建atlas集成hive元数据时报错

atlas集成hive导入元数据报错

2022-11-21 23:37:06 1086

原创集群安装hive修改元数据库存储报错

初始化 Hive 元数据库报错

2022-11-21 00:00:58 803

原创 navicat 15 连接VM中Mysql报错问题

navicat 15 连接VM中Mysql报错问题

2022-10-26 23:55:43 971

原创重载与重写

重载与重写

2022-10-24 22:33:17 290

原创 sqoop同步oracle数据至hive分区表问题

sqoop同步oracle数据进hive分区表问题

2022-10-24 16:11:57 614

原创 SQL优化思路

有关SQL优化

2022-10-12 19:09:05 426

原创数仓指标体系构建

数仓指标体系构建

2022-10-09 21:55:06 282

原创 HIVE版本查看

查看hive版本

2022-08-22 16:23:22 7826 1

原创 Dbeaver无法正常启动

Dbeaver发生错误，请参阅日志

2022-07-18 15:21:59 6250 2

原创类的实例方法、静态方法和类方法区别（python）

类的实例方法、静态方法和类方法区别（python）

2022-04-26 15:57:34 330

原创 azkaban调度出现$’\r’: command not found

项目场景：Azkaban调度问题描述：Azkaban调度shell脚本报错：$’\r’: command not found原因分析：原因是Windows下的空行，需要把文件转成unix解决方案：Centos下，执行yum install dos2unix，然后dos2unix [file]，再执行shell命令或者直接使用notepad++在右下角将Windows改为unix格式...

2022-01-27 18:10:43 571

原创 SQL中with as用法

WITH AS短语，也叫做子查询部分，定义一个SQL片断后，该SQL片断可以被整个SQL语句所用到。有的时候，with as是为了提高SQL语句的可读性，减少嵌套冗余。with A as ( select * from user) select * from A, customer where customer.userid = user.id**先执行select * from user把结果放到一个临时表A中，作为全局使用。with as的用法可以通俗点讲是，讲需要频繁

2021-07-12 15:03:11 28377

转载 myisam和innodb区别

MyISAM 和InnoDB 讲解　　InnoDB和MyISAM是许多人在使用MySQL时最常用的两个表类型，这两个表类型各有优劣，视具体应用而定。基本的差别为：MyISAM类型不支持事务处理等高级处理，而InnoDB类型支持。MyISAM类型的表强调的是性能，其执行数度比InnoDB类型更快，但是不提供事务支持，而InnoDB提供事务支持以及外部键等高级数据库功能。以下是一些细节和具体实现的差别：◆1.InnoDB不支持FULLTEXT类型的索引。◆2.InnoDB 中不保存表的具体行数，也就是说

2021-07-05 22:22:44 652

Ricardo_N的博客