- 博客(875)
- 收藏
- 关注
原创 StarRocks 数据类型全面详解(对比 MySQL)
类别StarRocks 优势MySQL 优势建议整数有LARGEINT超大整型支持UNSIGNEDStarRocks选型更简单小数DECIMALV3性能更好DECIMAL最大65位都用DECIMAL字符串STRING类型灵活有TEXT家族StarRocks用STRING替代TEXT日期DATEV2/DATETIMEV2更快有YEAR/TIMEStarRocks用V2版本布尔简单BOOLEAN同相同复杂类型✅ 支持ARRAY/MAP/STRUCT❌ 不支持。
2026-01-16 18:07:52
525
原创 StarRocks vs MySQL 全面深度对比
✅使用 StarRocks 的场景大数据分析:TB/PB级数据分析实时数仓:分钟级数据延迟要求OLAP报表:复杂聚合查询用户行为分析:用户画像、路径分析日志分析:Nginx/业务日志分析BI工具后端:Superset、Metabase等✅使用 MySQL 的场景业务系统交易系统:订单、支付、库存网站后端:用户、内容、评论实时业务:需要ACID事务中小型应用:数据量<1TB需要外键/存储过程的应用🔄混合架构方案│ 业务系统 │ │ 分析系统 ││ │ │ │。
2026-01-16 17:44:27
925
原创 StarRocks系统表
be_metricsfe_metrics- 性能监控be_logs- 故障排查be_tablets- 数据分布监控- 查询计划优化- 优化器统计tablescolumns- 数据结构查看partitions- 分区管理- 权限管理loads- 导入作业监控task_runs- 任务执行情况这些系统表是管理和监控 StarRocks 集群的重要工具,特别是对于性能调优、故障排查和日常运维非常有帮助。
2026-01-16 15:46:18
825
原创 SQLite
SQLite 是一个极其简洁、高效、自包含的 SQL 数据库引擎,它以单个文件的形式存在无需任何外部依赖或服务器管理。它是世界上部署最广泛的数据库,几乎无处不在,尤其适用于应用程序的本地数据存储场景。当需要一个轻量级的、本地的、无需复杂管理的数据库时,SQLite 通常是首选。当需要处理高并发、大数据量、需要分布式架构的复杂网络应用时,则应考虑 MySQL、PostgreSQL 等客户端-服务器型数据库。
2025-10-21 20:51:15
465
转载 ODPS数据倾斜
阿里云 ODPS/MaxCompute SQL 引擎里 MapReduce 任务的执行逻辑数据倾斜问题是怎么产生的调优思路你可以把它想成一个流水线/拆分拼图+搬东西的场景。
2025-09-13 22:44:21
128
原创 Dify平台
特性Completion (补全)Chatbot (聊天机器人)Agent (智能体)Workflow (工作流)交互方式单次,无状态多轮,有上下文多轮,有上下文多步骤,可无需对话核心能力文本生成对话式文本生成对话 + 使用工具可视化编排复杂流程复杂度低中中高高类比自动补全ChatGPT拥有手脚的专家助手自动化流水线适用场景翻译、写作、总结客服、聊天、咨询需要联网、查询、执行的复杂任务自动化业务处理、多系统集成它们之间的关系可以理解为:Completion是提供。
2025-09-02 08:29:19
578
原创 Hologres中列存、行存、行列共
用一个鲜活有趣的方式来揭示在 Hologres 中到底是怎么“摆数据”的,并在日常开发时如何选择最佳存储模式,来让你的存储策略既高效又“灵活到底”!
2025-08-23 10:46:29
724
原创 OLTP和OLAP
特性OLTP(事务处理)OLAP(分析处理)主要操作插入、更新、删除查询、聚合分析查询特点点查、少量数据扫描海量数据数据量中小规模大规模(TB~PB)响应时间毫秒级秒级 ~ 分钟级典型存储模式行存列存。
2025-08-23 10:37:31
277
原创 Hologres分布键(Distribution Key)
功能分布键(Distribution Key)定义作用决定数据在 shard 间的分布策略,使用哈希映射定位核心优势并行计算、Shard 剪枝、本地 Join 提速合理选择原则均匀字段、常用于 Group By / Join、最好为主键字段使用建议避免多个字段、数据倾斜、类型限制、需重建表更改键。
2025-08-23 08:45:28
1076
原创 Hologres位图索引(Bitmap 索引)
指标Clustering Key(聚簇索引)Bitmap 索引作用排序存储,加速范围查询位图标记,加速等值查询存储方式影响物理存储(排序)独立结构(位图)优先级优先使用被动辅助场景范围扫描、排序、分区等值过滤(低基数字段优先)开销较高(构建排序)存储 + 写入开销(位图构建)
2025-08-23 08:37:58
1114
原创 Hologres 聚簇索引
在 Hologres 中,聚簇索引决定了数据在物理存储文件内的排序顺序。通过对特定字段进行排序,可以显著提高基于该字段的查询效率,尤其是范围查询和过滤查询,例如或阿里云帮助中心。
2025-08-23 08:25:39
838
原创 pg_class 系统表信息
是 PostgreSQL 中的一个关键系统目录表,它存储了关于数据库对象(主要是表和类似表的对象)的元数据信息。是 PostgreSQL 系统目录中最重要的表之一,它提供了数据库对象的基础元数据,是许多系统查询和管理的核心。
2025-07-07 19:25:56
404
原创 Hologres 使用 FDW
FDW 是 PostgreSQL(包括 Hologres)提供的一种机制,用于访问外部数据源。通过 FDW,可以把外部数据库或文件系统的数据“挂载”为本地表,从而实现跨源查询和数据整合。
2025-06-21 22:13:31
519
原创 maxcomputer 和 hologres中的EXTERNAL TABLE 和 FOREIGN TABLE
平台表类型访问对象是否存储数据是否支持写入典型用法MaxComputeOSS、数据湖、Hive❌❌读取外部大数据文件(数据湖)MaxComputeRDS、Hologres、AnalyticDB 等❌部分支持联邦查询,访问在线数据库系统HologresMaxCompute、OSS、A-DB、Kafka 等❌❌实时访问外部数仓或流系统数据。
2025-06-21 22:06:59
913
原创 外部表(EXTERNAL TABLE)详解
外部表(External Table)是数据库中的一种特殊表类型,它不实际存储数据,而是提供对存储在数据库外部的数据的访问接口。
2025-06-21 09:54:53
487
原创 PostgreSQL/Hologres 外部数据包装器系统表 pg_foreign_data_wrapper 详解
fdwname name NOT NULL, -- 外部数据包装器名称fdwowner oid NOT NULL, -- 包装器所有者的OIDfdwhandler oid NOT NULL, -- 处理函数的OIDfdwvalidator oid NOT NULL, -- 验证函数的OIDfdwacl aclitem[], -- 访问权限控制列表fdwoptions text[] -- 包装器级别的选项。
2025-06-21 09:49:08
418
原创 PostgreSQL/Hologres 外部服务器系统表 pg_foreign_server 详解
srvname name NOT NULL, -- 外部服务器名称srvowner oid NOT NULL, -- 服务器所有者的OIDsrvfdw oid NOT NULL, -- 外部数据包装器(FDW)的OIDsrvtype text, -- 服务器类型标识符(可选)srvversion text, -- 服务器版本信息(可选)srvacl aclitem[], -- 访问权限控制列表srvoptions text[] -- 服务器特定的选项,以"option=value"格式存储。
2025-06-21 08:19:03
501
原创 PostgreSQL/Hologres 外部表系统表 pg_foreign_table 详解
ftrelid oid NOT NULL, -- 外部表在pg_class中的OIDftserver oid NOT NULL, -- 外部服务器在pg_foreign_server中的OIDftoptions text[] -- 外部表特定的选项,以"option=value"格式存储。
2025-06-21 08:14:35
417
原创 PostgreSQL/Hologres 系统表 pg_namespace 详解
是 PostgreSQL/Hologres 中存储命名空间(模式/schema)信息的核心系统目录表。
2025-06-21 08:02:31
516
原创 PostgreSQL/Hologres 系统表 pg_class 详解
您通过relname name NOT NULL, -- 关系(表/索引等)的名称relnamespace oid NOT NULL, -- 包含此关系的命名空间(模式)的OIDreltype oid NOT NULL, -- 对应pg_type中此关系行类型的OIDreloftype oid NOT NULL, -- 对于复合类型的关系,底层类型的OIDrelowner oid NOT NULL, -- 关系所有者的OID。
2025-06-21 07:57:35
641
原创 DTS 数据迁移
支持关系型数据库(MySQL, Oracle, SQL Server等)、NoSQL数据库、大数据系统等。DTS数据迁移是现代化数据架构调整和云迁移过程中的重要工具,能够大大降低数据迁移的复杂度和风险。DTS (Data Transmission Service) 是一种数据迁移和同步服务,:先迁移历史数据(全量),再实时同步新增变化(增量):不同数据库类型间迁移,如Oracle到MySQL。:将单库数据迁移到分库分表架构。:将业务数据迁移到分析型数据库。:将本地数据库迁移到云数据库。
2025-06-06 23:50:21
626
原创 数据仓库中的业务域与数据域
通常需要先理解业务域,然后将其映射为适合分析的数据域,这是一个从业务需求到数据实现的过程。电商系统中的"订单域"、"会员域"、"商品域"、"营销域"、"物流域"等。金融系统中的"客户域"、"账户域"、"交易域"、"风控域"等。划分的领域,反映了企业的业务架构和业务流程。与企业的组织架构和业务部门对应。体现业务的专业领域和职责范围。数据管理和分析视角划分的领域。基于实际业务功能和流程划分。数据的主题分类和分析维度。面向数据分析而非业务流程。基于数据主题和关联性划分。为数据建模和分析服务。
2025-05-25 22:17:05
1009
原创 DCMM:数据管理能力成熟度评估模型
DCMM为企业数据管理提供了系统性“体检表”和“路线图”,尤其适合中国本土企业结合政策与业务需求,循序渐进提升数据能力。通过DCMM认证,企业不仅能获得合规背书,更能释放数据资产价值,实现从“数据支撑业务”到“数据驱动业务”的跨越。该模型旨在帮助企业系统化评估和提升数据管理能力,推动数据价值释放和数字化转型。:适用于所有依赖数据驱动的企业或组织,尤其是金融、制造、政务、互联网等行业。: 建立统一数据治理委员会,整合分散的客户数据,实现风险管控和精准营销。:与AI、区块链结合,提升数据管理自动化水平。
2025-05-12 08:39:51
1010
原创 元数据和主数据
主数据是动态的业务实体(如客户、产品),而参考数据是静态的分类标准(如国家代码、货币类型),两者需分开管理。数据字典是元数据的一种表现形式,但元数据涵盖更广(如血缘关系、权限信息)。:客户信息(姓名、联系方式)、产品信息(型号、价格)、供应商信息等。:数据库表的字段名称、数据类型、数据来源、创建时间、访问权限等。主数据本身需要元数据来描述其结构(如客户表的字段定义);,用于描述数据的属性、结构、来源、用途等上下文信息。支撑业务流程(如销售、采购、财务)的标准化操作;辅助数据治理、数据质量管理、数据集成等。
2025-05-11 23:17:59
806
原创 DAMA车轮图
管理“关于数据的数据”,描述数据的定义、来源、结构、用途等,支持数据发现、血缘分析和治理。统一管理企业核心业务实体(如客户、产品、供应商),确保关键数据的一致性、唯一性和准确性。涵盖数据库设计、存储架构、数据操作(增删改查)及性能优化,确保数据的高效存取和可用性。管理非结构化数据(文档、图像、视频等),包括存储、检索、版本控制和权限管理。通过规则定义、清洗、监控等手段,提升数据的准确性、完整性、一致性和及时性。保护数据的机密性、完整性和可用性,包括权限控制、加密、脱敏、审计等。补充非结构化数据的治理。
2025-05-11 23:13:11
758
原创 数据指标和数据标签
数据指标是“量化衡量的尺子”,数据标签是“分类描述的标签”,两者共同支撑数据驱动的精细化运营。例如:通过“用户年龄段”(标签)分组统计“人均消费金额”(指标),分析不同年龄段的消费能力。:统计“VIP用户”(标签)在“双十一期间”(标签)的“客单价”(指标),优化营销策略。:商品类目(服饰/家电)、用户等级(VIP/普通)、促销类型(秒杀/满减)。例如:根据“近30天购买频率”(指标)定义“高活跃用户”(标签)。:监控“高风险客户”(标签)的“逾期率”(指标),调整风控策略。:逾期率、贷款审批通过率。
2025-05-11 22:54:45
943
原创 数字孪生概念
基于物理实体的数字映射,通常结合3D建模、物理规律(如热力学方程)和数据驱动模型(如机器学习算法)。:通过传感器、IoT设备、API等实时获取物理实体的运行数据(如温度、压力、位置、能耗)。:定义数字孪生模型的业务含义(如设备参数标签)和技术属性(如数据更新频率)。:确保数字孪生数据的合规性(如隐私保护)和一致性(如多版本模型管理)。:真实的设备、系统或环境(如一台发动机、一座工厂、一条城市道路)。:多源异构数据(结构化、非结构化、实时流数据)的清洗与融合。
2025-05-11 22:47:08
1184
原创 元数据分类
通过整合这三类元数据,企业可以实现更高效的数据治理(Data Governance)、数据质量管理(Data Quality Management)和合规性管理。: 例如,在数据血缘分析中,技术元数据描述数据如何从源系统流向目标表,业务元数据解释目标表的业务意义,而操作元数据记录这一过程的执行时间和错误情况。:从业务角度描述数据的含义、用途和业务规则,帮助业务人员理解数据的业务上下文。元数据(Metadata)是描述数据的数据,通常分为。是数据管理的基础,支撑数据的存储、处理和集成。
2025-05-11 22:19:11
612
原创 映射表详解
是一种用于存储不同系统或上下文中实体之间对应关系的表。:不同系统使用不同的唯一标识符(如用户ID、产品编码)。:实体之间存在复杂关联(如用户与用户组的归属)。:确保映射关系100%正确(可通过自动化校验)。通过ETL工具监听源系统变更,实时更新映射表。:支持动态新增映射规则(如新旧编码交替)。带时间的映射:增加时间字段(如。:合并异构数据源时统一标识符。映射表是数据整合和系统交互中的。:通过索引和分区优化查询性能。简单映射:联合主键(如。:对映射关系打标签(如。:定期清理过期映射(如。
2025-05-11 01:34:33
1999
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅