星环科技TDH社区版-CSDN博客

原创星环科技TDH社区版详解：从零搭建企业级大数据平台

TDH社区版三大核心优势，体现大数据平台核心价值TDH社区版集成了星环自研的Inceptor分析引擎，通过TPC-DS审计的分析引擎，即使免费版也可处理百亿级别数据，致力于解决存储、处理、分析与挖掘全场景需求。支持单机开发版（开箱即用）和标准分布式集群，资源要求极低，适合学习和实验。完整继承商业版“一体多模、统一架构”技术优势，使用统一SQL语法即可跨模型开发，有助于降低学习与协作成本。第二部分：00:03:16--00:08:04安装如此简单，从入门到企业级能力全覆盖。

2025-09-24 15:45:09 983

原创 AI Agent 的 10 种应用场景：物联网、RAG 与灾难响应

本文深入探讨了 AI Agent 在多个领域的应用场景，包括物联网（IoT）、检索增强生成（RAG）和灾难响应等。AI Agent 能够自主推理和行动，将复杂任务分解为子任务并动态调整计划。在农业中，它通过监测环境优化决策；在内容创作中，它结合最新信息生成高质量内容；在灾难响应中，它协调多源信息快速响应。此外，AI Agent 还广泛应用于金融、医疗、人力资源、IT 运营、供应链和交通运输等领域，展现出强大的功能和潜力，为各行业带来了显著的效率提升和价值创造。

2025-07-31 15:59:13 840

原创五种 AI Agent：自主功能与现实应用

本文深入探讨了五种主要类型的 AI Agent，包括反射代理、基于模型的反射代理、基于目标的 Agent、基于效用的 Agent 和学习代理。每种 Agent 都有其独特的智能水平、决策过程和应用场景。从简单的反射代理到强大的学习代理，这些 Agent 在处理复杂任务时表现出不同的能力和限制。文章还讨论了多 Agent 系统的概念，强调了 AI Agent 在人类参与下的最佳性能。

2025-07-31 15:44:54 1114

原创 ArgoDB性能增强版Rowkey表：实现高效数据写入与读取的优化方案

ArgoDB 6.0引入性能增强版Rowkey表，通过创新架构实现快速写入与高效查询。该系统采用分层存储机制，将实时数据写入快写层，后台自动合并至快读层，支持用户灵活选择读取模式（优先性能或实时性）。Rowkey表支持高性能UPSERT操作，无需特殊语法即可自动更新/插入数据。6.1版本新增极速单行插入功能，通过优化处理路径实现毫秒级响应，适用于低频实时写入场景。系统还提供参数配置和手动触发机制来优化数据新鲜度和合并效率，是兼顾实时性和查询性能的创新解决方案。

2025-07-09 10:50:12 1139

原创探索Parquet格式：实现高效数据存储与优化查询性能

摘要：随着AI技术的发展，传统关系型数据库面临非结构化数据处理挑战。Parquet列式存储格式通过三大技术突破重塑数据生态：高效压缩算法节省50%以上存储空间、支持复杂数据结构的Schema演化能力、跨平台兼容性设计。星环科技TDH社区版免费支持Parquet及其他常用格式，助力企业提升查询性能、降低存储成本。文章详细解析了Parquet的列式存储优势、文件格式特点、编码压缩策略及基础操作，为大数据处理提供高效解决方案。

2025-06-18 15:10:35 1217

原创星环产品可存储的表格式功能介绍以及创建示例

星环产品支持多种表存储格式，适用于不同业务场景。TEXT表为默认格式，适合数据中转但不支持事务；ORC表提供高压缩率和批处理性能，ORC事务表支持单条数据操作；CSV表用于数据导入，建议转换为ORC或Holodesk表进行计算；Holodesk内存闪存表适用于OLAP高性能分析；Hyperbase表支持高并发点查询和对象存储；ES表支持复杂检索；其他格式包括Excel、JSON、SequenceFile、RCFile和Parquet等。每种表格式都有特定的适用场景，用户应根据数据特性和业务需求选择合适的存储

2025-06-18 10:33:08 1126

原创 AgroDB高并发查询优化实践指南

接下来，我们将转变视角，探讨一些通用的查询优化手段，这些手段不仅仅局限于特定的查询模式，更可以作为提升 ArgoDB 整体查询性能的策略和方法。表分区是一种在数据库中组织和存储数据的技术，可用于处理大量数据并提高查询性能，其核心思想是将数据按照某个特定的标准分成多个物理块，每个物理块即为一个分区，从而使数据的存储和管理更加高效，可帮助我们我们实现稳定的。简而言之，它将查询结果保存下来，以便下次有相同或相似的查询请求时直接读取已经存储的结果，而非重新计算，从而节省系统资源，提高查询响应速度。

2025-06-13 11:00:50 1201

原创 [免费体验][多组件][多模式][开箱即用] 一图了解大数据平台TDH社区版

星环社区版家族基于商业版强大的技术底座打造，目前免费提供了多个极具竞争力的核心子产品及开发管理套件，致力于让广大开发爱好者快速享受到大数据技术所带来的技术红利，提供了一个更轻量、更简单、更易用的数据分析开发环境。

2025-06-06 11:15:45 154

原创 TDDMS分布式存储管理系列文章--分片/分区/分桶详解

随着数据量的爆炸性增长，传统的集中式存储系统已经无法满足现代应用对可扩展性、可靠性和性能的需求。分布式存储技术通过将数据分散存储在多个节点上，提供了一种有效的解决方案。本篇文章旨在为读者介绍星环分布式数据管理系统TDDMS的数据分布结构，是如何进行数据存储以支持后续系统实现快速读写数据的。

2025-04-11 16:07:44 1089

原创来聊下分布式事务管理及TDDMS中的技术实现

随着云计算和分布式架构的普及，系统功能往往被拆分为多个微服务或分布式组件运行在不同的节点上。这种分布式环境带来了可扩展性和灵活性，但也引入了事务一致性问题。在单体架构中，事务管理依赖于数据库的原生机制即可轻松实现，但在分布式系统中，数据分布在多个服务或数据库实例之间，传统的事务模型难以直接应用。分布式事务管理旨在解决这一问题，它需要协调多个节点的事务状态，确保系统在发生故障、网络延迟或节点宕机的情况下仍然可以稳定运行。

2025-04-11 11:31:08 804

原创【CDH国产化替代案例】全面简化架构，降低成本，大幅提升数据处理效率

在数字经济蓬勃发展的今天，大数据技术已成为推动企业创新和提升竞争力的关键力量。然而，随着市场快速变化，大数据平台也面临着诸多挑战和变革。对于依赖CDH构建大数据平台的企业来说当前正在面临诸多挑战。星环科技助力企业建设了一个统一的数据中台体系，平滑迁移CDH，各项数据处理指标均实现性能突破，本篇文章将为读者介绍在该场景下所使用到的核心技术点，希望能为读者在进行数字化转型过程中的技术选型提供思路。

2024-12-05 10:49:29 1916

原创【多模型能力测试记录】ArgoDB分布式分析型数据库与图数据库StellarDB联合查询

在当今数据驱动的世界中，企业面临着一个共同的挑战：如何有效地整合和分析来自不同数据源和格式的海量信息。为了应对这一挑战，多模型数据库技术应运而生，它们以其卓越的的处理能力以及跨模型分析计算能力为企业不同业务提供了强大的支持。本篇文章将通过实操为读者演示星环产品的异构数据分析能力，希望通过这些操作示例，读者将能够直观地了解到多模型联合查询在实际应用中的强大潜力，以及如何利用这一技术解决具体的业务挑战，为企业的数据库选型提供支持。

2024-12-05 10:42:20 3097

原创预告预告-首款3A巨作《黑神话悟空》攻略集大放送，开发版图数据库StellarDB构建通关指南

在最后一个地点也就是黑风洞的黑风洞_见谛峰土地庙可以跟最终boss黑熊精战斗，在此之前已经通过与各路妖王包括隐藏妖王战斗解锁各类技能及物品，比如避火罩、聚形散气，增加了闪避、定身等技能的能力，最终击败黑熊精。天命人至此，获得大圣化身的灵器，名曰喜看眼，得到了六大根器中的一个，除了这个之外打败黑熊精还能获得材料烈火金乌、精石、玲珑内丹等。等众多优势，充分降低了用户的安装以及资源门槛，只需有docker环境，执行3个命令（解压，加载镜像，启动）就可以一键启动完成。接下来就可以开启第二篇章：风起黄昏。

2024-09-09 19:35:14 609 1

原创【知识分享】HDFS基础操作以及修改配置文件命令

在使用HDFS命令操作文件时，HDFS中的文件或目录的路径必须写绝对路径，而本地文件的路径可以是相对路径。Linux添加修改配置文件一般都是使用默认的VI编辑器，命令是vi 文件名;

2024-08-28 18:37:30 1439

原创开源产品GeoMesa、MobilityDB存在哪些不足

支持大规模矢量数据、遥感影像数据、数字高程数据、时空轨迹数据的存储与计算，具有完备的数据查询、分析和挖掘能力，可用于时空查询分析、时空模式挖掘、时空轨迹聚类等时空轨迹数据分析场景，广泛应用于交通物流、城市管理、位置服务等场景。传感器网络、移动互联网、射频识别、全球定位系统等设备时刻输出时间和空间数据，数据量增长非常迅速，这对存储和管理时空数据带来了挑战，传统数据库很难应对时空数据。GeoMesa仅支持对矢量数据的存储，不支持对多维时空轨迹数据、栅格数据、瓦片数据的存储。

2024-08-28 16:50:32 1306

原创无涯·问知预测《黑神话：悟空》销量有望超过1700万份

8月20日，中国首款3A级游戏巨制《黑神话：悟空》震撼发布。我们来借助无涯看看到底这款游戏销量可以突破多少呢？

2024-08-22 14:57:09 548

原创如何通过AquilaInsight快速查看每天有哪些异常/慢查询？

可以通过Aquila对Insighs Server的”计算引擎-历史异常查询“进行查看，或者在DBAService的首页“慢查询”部分查看。

2024-08-09 15:17:59 264

原创星环产品可存储的表格式功能介绍（基础篇）

用户在建表的时候结尾stored as 处可以直接指定表类型，如果不进行指定则默认为TEXT表，那星环产品都可以存储哪些类型的表以及这些表分别是用在什么场景下呢？本篇文章将为读者介绍星环产品Inceptor以及ArgoDB有哪些可以存储的表格式，以及不同表格式对应的能力。希望可以对读者在业务场景中表格式的选择有所帮助。在表的分类中，星环关系型分析引擎Inceptor以及分布式分析型数据库ArgoDB在针对不同的业务场景中提供了不同的表类型。星环产品可存储的表格式 | 概览。

2024-08-09 11:33:52 2037

原创聊一聊UDF/UDTF/UDAF是什么，开发要点及如何使用？

本篇文章主要介绍了UDF/UDTF/UDAF是什么，提供了开发要点及示例以及如何打包应用

2024-06-27 17:03:37 4126 4

原创 Inceptor/ArgoDB开发者指南系列1--如何连接数据库

本篇文章将介绍两个最常用的链接星环数据库的方式

2024-06-27 09:00:00 2973

原创当出现数据倾斜时如何应对---倾斜key单独处理/MapJoin/星环SkewJoin的原理及使用方法

本篇文章为本系列最终篇，将为您介绍在计算过程中出现数据倾斜的问题时应该如何处理应对，不同手段的使用方式，如果您还有其他想了解的可以多多留言反馈，后续进行补充描述。但是MapJoin只适用于大表小表Join的情况，因为MapJoin会将指定表的数据全部加载在内存，表在被加载到内存后，数据大小会急剧膨胀，因此指定的表只能是小表。如上述样例，计算引擎会对表 jt_1 中，所有 id=1，name='qwh' 以及 id=2，name='ly' 的所有列做均匀处理，避免倾斜。

2024-06-26 13:45:00 2558

原创星环科技计算引擎针对数据倾斜现象的引擎保护机制

上一篇文章从原理开始为读者介绍了为什么会出现数据倾斜现象，它的诱因是什么，以及星环针对数据倾斜问题的诱因做的一些技术改造及创新。本篇文章将续上节继续为读者介绍下星环在不同的倾斜诱发阶段下的引擎保护机制，如何避免最终内存溢出以及集群崩坏的风险。星环的保护机制为了防止因为数据倾斜导致executor不稳定甚至故障，影响系统的稳定运行，星环科技针对倾斜场景在task中增加了一些安全保护参数，当到达参数上限后，我们将判定存在数据倾斜，为了保护计算引擎，任务将中断并返回一些报错提醒。shuffle write阶段。

2024-06-26 09:00:00 1277

原创关于SQL优化解决InceptorSQL慢的一些思路

本篇文章提供了一些通过优化SQL来解决InceptorSQL慢的一些思路

2024-06-25 09:00:00 911

原创分布式计算框架系列文章（二）数据倾斜现象诱因、原理、影响，以及星环对此的应对策略

如果文件数量特别巨大，对文件读写的性能会带来比较大的影响，此外由于同时打开的文件句柄数量众多，序列化，以及压缩等操作需要分配的临时内存空间也可能会迅速膨胀到无法接受的地步，对内存的使用和GC带来很大的压力，在Executor内存比较小的情况下尤为突出，例如Spark on Yarn模式。当涉及到多个数据表时，JOIN是SQL中最常用的操作之一。JOIN的作用是将多个数据表中的数据组合在一起，从而使用户可以根据不同的条件组合过滤和查询多个表中的数据，最终提取记录形成一个新的结果集，实现数据关联和查询分析。

2024-06-25 02:30:00 1565

原创分布式计算框架系列文章（一）MapReduce计算框架工作流程详解以及框架限制

后续Spark基于MR框架做了进一步的优化，解决了MapReduce计算框架的不足，基于内存和DAG的计算模式有效的减少了数据shuffle落磁盘的IO和子过程数量，实现了性能的数量级上的提升。在容错性方面，由于MapReduce的分布式架构设计，在设计之初即设定了硬件故障的常态性，因此其计算模型设计了大量的容错逻辑，如任务心跳、重试、故障检测、重分布、任务黑/灰名单、磁盘故障处理等机制，覆盖了从JobTracker、TaskTracker到Job、Task和Record级别的从大到小各个层级的故障处理。

2024-06-24 16:45:29 1174

原创 SQL优化示例

把这个sql换成MR代码的话，map的时候，把a表的记录打上标签a,商品表记录每读取一条，打上标签b，变成两个<key ,value>对，<b,数字id>，<b,字符串id>。附上hadoop通用关联的实现方法（关联通过二次排序实现的，关联的列为paritionkey,关联的列c1和表的tag组成排序的group key,根据parition key分配reduce。如日志中，常会有信息丢失的问题，比如全网日志中的user_id，如果取其中的user_id和bmw_users关联，就会碰到数据倾斜的问题。

2024-06-24 15:07:14 1298 4

原创性能调优之CPU瓶颈点调优

在调优过程中，通过系统资源、吞吐量、负载等因素来帮助定位和分析性能问题，使系统性能达到可接受的范围。如果存在某个核占用接近100%，其他核使用率不高，说明某个核成为瓶颈。执行vmstat 2 10，实时查看cpu的分配情况，看系统调用，上下文切换是否过多。如果CPU整体占用超过90%(id < 10），说明此时CPU已经成为瓶颈。在所有存储节点，逐一执行top命令，查看CPU整体占用情况。在所有存储节点，逐一执行htop命令，查看每个核的占用情况。执行perf top，实时查看cpu使用最多的是哪里。

2024-06-23 09:00:00 309

原创【知识分享】如何计算Task数量来充分利用上CPU

因为任务的分配是以Task为粒度执行的，每一个Task同时只会执行在一个Executor上，是用一个vCore资源，因此如果要充分利用上CPU，就需要干预Task数量。默认会先2个Task执行（参数 ngmr.num.parts.try.limit 决定，limit不够再起新的task），因此不要进行大数据量的limit，性能非常差。因此可以看到，示例的任务中，stage4的task数位605，stage5的task数是1000，而stage6的task数就是600了。示例中就是裁剪后只剩1个task。

2024-06-23 02:30:00 886

原创【性能优化】表分区实践最佳案例

表分区是一种在数据库中组织和存储数据的技术，就像是将物品存在不同的抽屉中，我们在找想要的物品时，只需要拉开对应标签的抽屉即可快速找到，可用于处理大量数据并提高查询性能。本篇文章将为读者介绍有关分区策略的一些基础知识，并为读者提供一个最佳实践案例，希望读者可以更深刻的了解如何分区，何时分区。

2024-06-22 09:00:00 1194

原创【性能优化】表分桶实践最佳案例

分桶在生产实践中一直占据着十分重要的角色，如果分桶策略不当可能会引发各种问题，如小文件问题，数据倾斜问题等。因此本篇文章将为读者介绍如何分桶，何时分桶，并提供了一个最佳实践案例辅助读者更深刻的了解分桶策略。

2024-06-22 02:30:00 1918

原创【有手就会】星环图数据库Demo教程，实现反洗钱场景下银行转账流水数据分析

本演示将以StellarDB的KGExplorer工具为核心，展示如何分析并可视化银行转账记录，从中抽丝剥茧，揭示潜在的反洗钱犯罪线索。其中包括图谱创建过程，CSV数据导入流程以及具有代表性的图数据关系查询，供您参考。

2024-06-21 16:59:55 2027 2

原创【有手就会】图数据库Demo教程，实现《诡秘之主》中的人物关系探索

右键点击“展开节点”便可以看到所有与其存在关系的人物。在画布中添加节点后，将节点的“label”定义为“person”，并为其添加“name”属性，属性类型为“STRING”。我们将“A先生”隐藏，然后选中“奥黛丽·霍尔”将其变更为红色，重复“展开节点”操作，可以看克莱恩·莫雷蒂与奥黛丽·霍尔共同存有关系的人物角色，以及奥黛丽·霍尔单独存有关系的角色。注意：由于人物信息与关系信息集中于一个文件中，此处需添加3次数据源（即点击“添加”按钮3次），然后将添加文件分别将“点/边”设定为“点”、“点”、“边”。

2024-06-21 10:48:26 1987

空空如也

空空如也