- 博客(869)
- 收藏
- 关注
原创 SQLite
SQLite 是一个极其简洁、高效、自包含的 SQL 数据库引擎,它以单个文件的形式存在无需任何外部依赖或服务器管理。它是世界上部署最广泛的数据库,几乎无处不在,尤其适用于应用程序的本地数据存储场景。当需要一个轻量级的、本地的、无需复杂管理的数据库时,SQLite 通常是首选。当需要处理高并发、大数据量、需要分布式架构的复杂网络应用时,则应考虑 MySQL、PostgreSQL 等客户端-服务器型数据库。
2025-10-21 20:51:15
454
转载 ODPS数据倾斜
阿里云 ODPS/MaxCompute SQL 引擎里 MapReduce 任务的执行逻辑数据倾斜问题是怎么产生的调优思路你可以把它想成一个流水线/拆分拼图+搬东西的场景。
2025-09-13 22:44:21
111
原创 Dify平台
特性Completion (补全)Chatbot (聊天机器人)Agent (智能体)Workflow (工作流)交互方式单次,无状态多轮,有上下文多轮,有上下文多步骤,可无需对话核心能力文本生成对话式文本生成对话 + 使用工具可视化编排复杂流程复杂度低中中高高类比自动补全ChatGPT拥有手脚的专家助手自动化流水线适用场景翻译、写作、总结客服、聊天、咨询需要联网、查询、执行的复杂任务自动化业务处理、多系统集成它们之间的关系可以理解为:Completion是提供。
2025-09-02 08:29:19
563
原创 Hologres中列存、行存、行列共
用一个鲜活有趣的方式来揭示在 Hologres 中到底是怎么“摆数据”的,并在日常开发时如何选择最佳存储模式,来让你的存储策略既高效又“灵活到底”!
2025-08-23 10:46:29
705
原创 OLTP和OLAP
特性OLTP(事务处理)OLAP(分析处理)主要操作插入、更新、删除查询、聚合分析查询特点点查、少量数据扫描海量数据数据量中小规模大规模(TB~PB)响应时间毫秒级秒级 ~ 分钟级典型存储模式行存列存。
2025-08-23 10:37:31
254
原创 Hologres分布键(Distribution Key)
功能分布键(Distribution Key)定义作用决定数据在 shard 间的分布策略,使用哈希映射定位核心优势并行计算、Shard 剪枝、本地 Join 提速合理选择原则均匀字段、常用于 Group By / Join、最好为主键字段使用建议避免多个字段、数据倾斜、类型限制、需重建表更改键。
2025-08-23 08:45:28
1041
原创 Hologres位图索引(Bitmap 索引)
指标Clustering Key(聚簇索引)Bitmap 索引作用排序存储,加速范围查询位图标记,加速等值查询存储方式影响物理存储(排序)独立结构(位图)优先级优先使用被动辅助场景范围扫描、排序、分区等值过滤(低基数字段优先)开销较高(构建排序)存储 + 写入开销(位图构建)
2025-08-23 08:37:58
1090
原创 Hologres 聚簇索引
在 Hologres 中,聚簇索引决定了数据在物理存储文件内的排序顺序。通过对特定字段进行排序,可以显著提高基于该字段的查询效率,尤其是范围查询和过滤查询,例如或阿里云帮助中心。
2025-08-23 08:25:39
815
原创 pg_class 系统表信息
是 PostgreSQL 中的一个关键系统目录表,它存储了关于数据库对象(主要是表和类似表的对象)的元数据信息。是 PostgreSQL 系统目录中最重要的表之一,它提供了数据库对象的基础元数据,是许多系统查询和管理的核心。
2025-07-07 19:25:56
376
原创 Hologres 使用 FDW
FDW 是 PostgreSQL(包括 Hologres)提供的一种机制,用于访问外部数据源。通过 FDW,可以把外部数据库或文件系统的数据“挂载”为本地表,从而实现跨源查询和数据整合。
2025-06-21 22:13:31
492
原创 maxcomputer 和 hologres中的EXTERNAL TABLE 和 FOREIGN TABLE
平台表类型访问对象是否存储数据是否支持写入典型用法MaxComputeOSS、数据湖、Hive❌❌读取外部大数据文件(数据湖)MaxComputeRDS、Hologres、AnalyticDB 等❌部分支持联邦查询,访问在线数据库系统HologresMaxCompute、OSS、A-DB、Kafka 等❌❌实时访问外部数仓或流系统数据。
2025-06-21 22:06:59
886
原创 外部表(EXTERNAL TABLE)详解
外部表(External Table)是数据库中的一种特殊表类型,它不实际存储数据,而是提供对存储在数据库外部的数据的访问接口。
2025-06-21 09:54:53
450
原创 PostgreSQL/Hologres 外部数据包装器系统表 pg_foreign_data_wrapper 详解
fdwname name NOT NULL, -- 外部数据包装器名称fdwowner oid NOT NULL, -- 包装器所有者的OIDfdwhandler oid NOT NULL, -- 处理函数的OIDfdwvalidator oid NOT NULL, -- 验证函数的OIDfdwacl aclitem[], -- 访问权限控制列表fdwoptions text[] -- 包装器级别的选项。
2025-06-21 09:49:08
405
原创 PostgreSQL/Hologres 外部服务器系统表 pg_foreign_server 详解
srvname name NOT NULL, -- 外部服务器名称srvowner oid NOT NULL, -- 服务器所有者的OIDsrvfdw oid NOT NULL, -- 外部数据包装器(FDW)的OIDsrvtype text, -- 服务器类型标识符(可选)srvversion text, -- 服务器版本信息(可选)srvacl aclitem[], -- 访问权限控制列表srvoptions text[] -- 服务器特定的选项,以"option=value"格式存储。
2025-06-21 08:19:03
488
原创 PostgreSQL/Hologres 外部表系统表 pg_foreign_table 详解
ftrelid oid NOT NULL, -- 外部表在pg_class中的OIDftserver oid NOT NULL, -- 外部服务器在pg_foreign_server中的OIDftoptions text[] -- 外部表特定的选项,以"option=value"格式存储。
2025-06-21 08:14:35
396
原创 PostgreSQL/Hologres 系统表 pg_namespace 详解
是 PostgreSQL/Hologres 中存储命名空间(模式/schema)信息的核心系统目录表。
2025-06-21 08:02:31
468
原创 PostgreSQL/Hologres 系统表 pg_class 详解
您通过relname name NOT NULL, -- 关系(表/索引等)的名称relnamespace oid NOT NULL, -- 包含此关系的命名空间(模式)的OIDreltype oid NOT NULL, -- 对应pg_type中此关系行类型的OIDreloftype oid NOT NULL, -- 对于复合类型的关系,底层类型的OIDrelowner oid NOT NULL, -- 关系所有者的OID。
2025-06-21 07:57:35
608
原创 DTS 数据迁移
支持关系型数据库(MySQL, Oracle, SQL Server等)、NoSQL数据库、大数据系统等。DTS数据迁移是现代化数据架构调整和云迁移过程中的重要工具,能够大大降低数据迁移的复杂度和风险。DTS (Data Transmission Service) 是一种数据迁移和同步服务,:先迁移历史数据(全量),再实时同步新增变化(增量):不同数据库类型间迁移,如Oracle到MySQL。:将单库数据迁移到分库分表架构。:将业务数据迁移到分析型数据库。:将本地数据库迁移到云数据库。
2025-06-06 23:50:21
597
原创 数据仓库中的业务域与数据域
通常需要先理解业务域,然后将其映射为适合分析的数据域,这是一个从业务需求到数据实现的过程。电商系统中的"订单域"、"会员域"、"商品域"、"营销域"、"物流域"等。金融系统中的"客户域"、"账户域"、"交易域"、"风控域"等。划分的领域,反映了企业的业务架构和业务流程。与企业的组织架构和业务部门对应。体现业务的专业领域和职责范围。数据管理和分析视角划分的领域。基于实际业务功能和流程划分。数据的主题分类和分析维度。面向数据分析而非业务流程。基于数据主题和关联性划分。为数据建模和分析服务。
2025-05-25 22:17:05
965
原创 DCMM:数据管理能力成熟度评估模型
DCMM为企业数据管理提供了系统性“体检表”和“路线图”,尤其适合中国本土企业结合政策与业务需求,循序渐进提升数据能力。通过DCMM认证,企业不仅能获得合规背书,更能释放数据资产价值,实现从“数据支撑业务”到“数据驱动业务”的跨越。该模型旨在帮助企业系统化评估和提升数据管理能力,推动数据价值释放和数字化转型。:适用于所有依赖数据驱动的企业或组织,尤其是金融、制造、政务、互联网等行业。: 建立统一数据治理委员会,整合分散的客户数据,实现风险管控和精准营销。:与AI、区块链结合,提升数据管理自动化水平。
2025-05-12 08:39:51
939
原创 元数据和主数据
主数据是动态的业务实体(如客户、产品),而参考数据是静态的分类标准(如国家代码、货币类型),两者需分开管理。数据字典是元数据的一种表现形式,但元数据涵盖更广(如血缘关系、权限信息)。:客户信息(姓名、联系方式)、产品信息(型号、价格)、供应商信息等。:数据库表的字段名称、数据类型、数据来源、创建时间、访问权限等。主数据本身需要元数据来描述其结构(如客户表的字段定义);,用于描述数据的属性、结构、来源、用途等上下文信息。支撑业务流程(如销售、采购、财务)的标准化操作;辅助数据治理、数据质量管理、数据集成等。
2025-05-11 23:17:59
779
原创 DAMA车轮图
管理“关于数据的数据”,描述数据的定义、来源、结构、用途等,支持数据发现、血缘分析和治理。统一管理企业核心业务实体(如客户、产品、供应商),确保关键数据的一致性、唯一性和准确性。涵盖数据库设计、存储架构、数据操作(增删改查)及性能优化,确保数据的高效存取和可用性。管理非结构化数据(文档、图像、视频等),包括存储、检索、版本控制和权限管理。通过规则定义、清洗、监控等手段,提升数据的准确性、完整性、一致性和及时性。保护数据的机密性、完整性和可用性,包括权限控制、加密、脱敏、审计等。补充非结构化数据的治理。
2025-05-11 23:13:11
737
原创 数据指标和数据标签
数据指标是“量化衡量的尺子”,数据标签是“分类描述的标签”,两者共同支撑数据驱动的精细化运营。例如:通过“用户年龄段”(标签)分组统计“人均消费金额”(指标),分析不同年龄段的消费能力。:统计“VIP用户”(标签)在“双十一期间”(标签)的“客单价”(指标),优化营销策略。:商品类目(服饰/家电)、用户等级(VIP/普通)、促销类型(秒杀/满减)。例如:根据“近30天购买频率”(指标)定义“高活跃用户”(标签)。:监控“高风险客户”(标签)的“逾期率”(指标),调整风控策略。:逾期率、贷款审批通过率。
2025-05-11 22:54:45
919
原创 数字孪生概念
基于物理实体的数字映射,通常结合3D建模、物理规律(如热力学方程)和数据驱动模型(如机器学习算法)。:通过传感器、IoT设备、API等实时获取物理实体的运行数据(如温度、压力、位置、能耗)。:定义数字孪生模型的业务含义(如设备参数标签)和技术属性(如数据更新频率)。:确保数字孪生数据的合规性(如隐私保护)和一致性(如多版本模型管理)。:真实的设备、系统或环境(如一台发动机、一座工厂、一条城市道路)。:多源异构数据(结构化、非结构化、实时流数据)的清洗与融合。
2025-05-11 22:47:08
1158
原创 元数据分类
通过整合这三类元数据,企业可以实现更高效的数据治理(Data Governance)、数据质量管理(Data Quality Management)和合规性管理。: 例如,在数据血缘分析中,技术元数据描述数据如何从源系统流向目标表,业务元数据解释目标表的业务意义,而操作元数据记录这一过程的执行时间和错误情况。:从业务角度描述数据的含义、用途和业务规则,帮助业务人员理解数据的业务上下文。元数据(Metadata)是描述数据的数据,通常分为。是数据管理的基础,支撑数据的存储、处理和集成。
2025-05-11 22:19:11
590
原创 映射表详解
是一种用于存储不同系统或上下文中实体之间对应关系的表。:不同系统使用不同的唯一标识符(如用户ID、产品编码)。:实体之间存在复杂关联(如用户与用户组的归属)。:确保映射关系100%正确(可通过自动化校验)。通过ETL工具监听源系统变更,实时更新映射表。:支持动态新增映射规则(如新旧编码交替)。带时间的映射:增加时间字段(如。:合并异构数据源时统一标识符。映射表是数据整合和系统交互中的。:通过索引和分区优化查询性能。简单映射:联合主键(如。:对映射关系打标签(如。:定期清理过期映射(如。
2025-05-11 01:34:33
1842
原创 桥接表详解
桥接表是解决多对多关系的标准方法,核心设计步骤:创建基础表(如student和course创建桥接表(如),通过外键关联基础表。在桥接表中存储额外关联信息(如成绩、时间等)。用户与用户组的关联商品与多个标签的关联医生与患者的诊疗关系以下是一个简单的桥接表示例,用的场景来说明桥接表的作用。学生(Student)可以选修多门课程(Course)。一门课程(Course)也可以被多个学生选修。这是一个典型的,需要用桥接表()来管理学生和课程的关联关系。
2025-05-11 01:28:11
488
原创 缓慢变化维和周期变化维
追踪商品促销标签(如“双11大促”“618预热”)的变化历史,支持分析不同促销期的转化率差异。通过定期维护(如归档、索引优化)和业务对齐(如淘汰无效周期),可避免维度退化,提升数仓健壮性。的方式变化(如客户地址变更、产品分类调整)。结合SCD Type 2与周期标记,处理既有缓慢变化又有周期性调整的属性。混合场景中可结合代理键、时间范围和周期字段,平衡历史追踪与查询效率。:将低频周期维度合并为“其他”类别(如合并季度销售区域为年度)。:删除不再使用的周期版本(如5年前的价格表)。),每条记录绑定特定周期。
2025-05-11 00:37:36
674
原创 维度退化及其处理方法解析
类似问题可出现在商品类目(过时分类)、时间维度(分钟级粒度未被使用)等场景中,需结合具体业务动态调整。:该维度无法有效区分用户群体,分析时导致“维度分裂”(大量查询结果集中在APP渠道)。:90%的用户注册渠道标记为“APP”(早期主推APP注册,其他渠道流量极少)。:解决单一维度区分度低的问题(如“APP_VIP用户”可能复购率更高)。:渠道分类混乱(如“H5”被拆分为“H5-促销页”“H5-广告页”)。:部分渠道已下线(如“PC端注册”),但字段仍保留旧值。:将渠道属性与其他字段组合,生成衍生维度。
2025-05-11 00:29:51
869
原创 Pandas 内存不足 或 UDF 执行慢
针对 Pandas 内存不足 和 UDF(用户自定义函数)执行慢 的问题,以下是系统性优化方案,结合内存管理、计算加速和代码重构技巧:压缩数据类型:减少数值型数据内存占用。 效果:内存占用减少 50%~70%。稀疏数据存储:对高稀疏度列(如大量0或NaN)使用稀疏矩阵。 2. 分块处理(Chunk Processing) 流式读取大数据文件:避免全量加载到内存。 3. 内存释放 手动释放无用对象: 避免深拷贝:使用 或引用传递减少复制。
2025-05-10 16:02:00
1178
原创 Hive JOIN 优化策略详解
某些 JOIN 键的数据量远高于其他键(如用户 ID 为 123 的订单占全表 50%),导致部分 Reducer 负载过重,任务执行时间显著延长。通过合理组合这些技术,可显著提升 Hive 处理大规模 JOIN 的效率。:若两表按相同键分桶且分桶数相同,可直接在 Map 端匹配桶文件,无需 Shuffle。:通过分桶将相同键的数据物理聚集,减少 JOIN 时的数据移动。按 JOIN 键的哈希值将数据分布到固定数量的桶中。高频 JOIN 操作,且 JOIN 键固定。:每个桶内的数据按 JOIN 键排序。
2025-05-10 15:56:12
1262
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅