自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 收藏
  • 关注

原创 无涯·问知预测《黑神话:悟空》销量有望超过1700万份

8月20日,中国首款3A级游戏巨制《黑神话:悟空》震撼发布。 我们来借助无涯看看到底这款游戏销量可以突破多少呢?

2024-08-22 14:57:09 203

原创 如何通过AquilaInsight快速查看每天有哪些异常/慢查询?

可以通过Aquila对Insighs Server的”计算引擎-历史异常查询“进行查看,或者在DBAService的首页“慢查询”部分查看。

2024-08-09 15:17:59 175

原创 星环产品可存储的表格式功能介绍(基础篇)

用户在建表的时候结尾stored as 处可以直接指定表类型,如果不进行指定则默认为TEXT表,那星环产品都可以存储哪些类型的表以及这些表分别是用在什么场景下呢?本篇文章将为读者介绍星环产品Inceptor以及ArgoDB有哪些可以存储的表格式,以及不同表格式对应的能力。希望可以对读者在业务场景中表格式的选择有所帮助。在表的分类中,星环关系型分析引擎Inceptor以及分布式分析型数据库ArgoDB在针对不同的业务场景中提供了不同的表类型。星环产品可存储的表格式 | 概览。

2024-08-09 11:33:52 976

原创 聊一聊UDF/UDTF/UDAF是什么,开发要点及如何使用?

本篇文章主要介绍了UDF/UDTF/UDAF是什么,提供了开发要点及示例以及如何打包应用

2024-06-27 17:03:37 1612 2

原创 Inceptor/ArgoDB开发者指南系列1--如何连接数据库

本篇文章将介绍两个最常用的链接星环数据库的方式

2024-06-27 09:00:00 1208

原创 当出现数据倾斜时如何应对---倾斜key单独处理/MapJoin/星环SkewJoin的原理及使用方法

本篇文章为本系列最终篇,将为您介绍在计算过程中出现数据倾斜的问题时应该如何处理应对,不同手段的使用方式,如果您还有其他想了解的可以多多留言反馈,后续进行补充描述。但是MapJoin只适用于大表小表Join的情况,因为MapJoin会将指定表的数据全部加载在内存,表在被加载到内存后,数据大小会急剧膨胀,因此指定的表只能是小表。如上述样例,计算引擎会对表 jt_1 中,所有 id=1,name='qwh' 以及 id=2,name='ly' 的所有列做均匀处理,避免倾斜。

2024-06-26 13:45:00 2205

原创 星环科技计算引擎针对数据倾斜现象的引擎保护机制

上一篇文章从原理开始为读者介绍了为什么会出现数据倾斜现象,它的诱因是什么,以及星环针对数据倾斜问题的诱因做的一些技术改造及创新。本篇文章将续上节继续为读者介绍下星环在不同的倾斜诱发阶段下的引擎保护机制,如何避免最终内存溢出以及集群崩坏的风险。星环的保护机制为了防止因为数据倾斜导致executor不稳定甚至故障,影响系统的稳定运行,星环科技针对倾斜场景在task中增加了一些安全保护参数,当到达参数上限后,我们将判定存在数据倾斜,为了保护计算引擎,任务将中断并返回一些报错提醒。shuffle write阶段。

2024-06-26 09:00:00 871

原创 关于SQL优化解决InceptorSQL慢的一些思路

本篇文章提供了一些通过优化SQL来解决InceptorSQL慢的一些思路

2024-06-25 09:00:00 617

原创 分布式计算框架系列文章(二)数据倾斜现象诱因、原理、影响,以及星环对此的应对策略

如果文件数量特别巨大,对文件读写的性能会带来比较大的影响,此外由于同时打开的文件句柄数量众多,序列化,以及压缩等操作需要分配的临时内存空间也可能会迅速膨胀到无法接受的地步,对内存的使用和GC带来很大的压力,在Executor内存比较小的情况下尤为突出,例如Spark on Yarn模式。当涉及到多个数据表时,JOIN是SQL中最常用的操作之一。JOIN的作用是将多个数据表中的数据组合在一起,从而使用户可以根据不同的条件组合过滤和查询多个表中的数据,最终提取记录形成一个新的结果集,实现数据关联和查询分析。

2024-06-25 02:30:00 1352

原创 分布式计算框架系列文章(一)MapReduce计算框架工作流程详解以及框架限制

后续Spark基于MR框架做了进一步的优化,解决了MapReduce计算框架的不足,基于内存和DAG的计算模式有效的减少了数据shuffle落磁盘的IO和子过程数量,实现了性能的数量级上的提升。在容错性方面,由于MapReduce的分布式架构设计,在设计之初即设定了硬件故障的常态性,因此其计算模型设计了大量的容错逻辑,如任务心跳、重试、故障检测、重分布、任务黑/灰名单、磁盘故障处理等机制,覆盖了从JobTracker、TaskTracker到Job、Task和Record级别的从大到小各个层级的故障处理。

2024-06-24 16:45:29 947

原创 SQL优化示例

把这个sql换成MR代码的话,map的时候,把a表的记录打上标签a,商品表记录每读取一条,打上标签b,变成两个<key ,value>对,<b,数字id>,<b,字符串id>。附上hadoop通用关联的实现方法(关联通过二次排序实现的,关联的列为paritionkey,关联的列c1和表的tag组成排序的group key,根据parition key分配reduce。如日志中,常会有信息丢失的问题,比如全网日志中的user_id,如果取其中的user_id和bmw_users关联,就会碰到数据倾斜的问题。

2024-06-24 15:07:14 1019 4

原创 性能调优之CPU瓶颈点调优

在调优过程中,通过系统资源、吞吐量、负载等因素来帮助定位和分析性能问题,使系统性能达到可接受的范围。如果存在某个核占用接近100%,其他核使用率不高,说明某个核成为瓶颈。执行vmstat 2 10,实时查看cpu的分配情况,看系统调用,上下文切换是否过多。如果CPU整体占用超过90%(id < 10),说明此时CPU已经成为瓶颈。在所有存储节点,逐一执行top命令,查看CPU整体占用情况。在所有存储节点,逐一执行htop命令,查看每个核的占用情况。执行perf top,实时查看cpu使用最多的是哪里。

2024-06-23 09:00:00 163

原创 【知识分享】如何计算Task数量来充分利用上CPU

因为任务的分配是以Task为粒度执行的,每一个Task同时只会执行在一个Executor上,是用一个vCore资源,因此如果要充分利用上CPU,就需要干预Task数量。默认会先2个Task执行(参数 ngmr.num.parts.try.limit 决定,limit不够再起新的task),因此不要进行大数据量的limit,性能非常差。因此可以看到,示例的任务中,stage4的task数位605,stage5的task数是1000,而stage6的task数就是600了。示例中就是裁剪后只剩1个task。

2024-06-23 02:30:00 749

原创 【性能优化】表分区实践最佳案例

表分区是一种在数据库中组织和存储数据的技术,就像是将物品存在不同的抽屉中,我们在找想要的物品时,只需要拉开对应标签的抽屉即可快速找到,可用于处理大量数据并提高查询性能。本篇文章将为读者介绍有关分区策略的一些基础知识,并为读者提供一个最佳实践案例,希望读者可以更深刻的了解如何分区,何时分区。

2024-06-22 09:00:00 621

原创 【性能优化】表分桶实践最佳案例

分桶在生产实践中一直占据着十分重要的角色,如果分桶策略不当可能会引发各种问题,如小文件问题,数据倾斜问题等。因此本篇文章将为读者介绍如何分桶,何时分桶,并提供了一个最佳实践案例辅助读者更深刻的了解分桶策略。

2024-06-22 02:30:00 857

原创 【有手就会】图数据库Demo教程,实现反洗钱场景下银行转账流水数据分析

本演示将以StellarDB的KGExplorer工具为核心,展示如何分析并可视化银行转账记录,从中抽丝剥茧,揭示潜在的反洗钱犯罪线索。其中包括图谱创建过程,CSV数据导入流程以及具有代表性的图数据关系查询,供您参考。

2024-06-21 16:59:55 1118

原创 【有手就会】图数据库Demo教程,实现《诡秘之主》中的人物关系探索

右键点击“展开节点”便可以看到所有与其存在关系的人物。在画布中添加节点后,将节点的“label”定义为“person”,并为其添加“name”属性,属性类型为“STRING”。我们将“A先生”隐藏,然后选中“奥黛丽·霍尔”将其变更为红色,重复“展开节点”操作,可以看克莱恩·莫雷蒂与奥黛丽·霍尔共同存有关系的人物角色,以及奥黛丽·霍尔单独存有关系的角色。注意:由于人物信息与关系信息集中于一个文件中,此处需添加3次数据源(即点击“添加”按钮3次),然后将添加文件分别将“点/边”设定为“点”、“点”、“边”。

2024-06-21 10:48:26 1057

原创 【0-1系列】从0-1快速了解搜索引擎Scope以及如何快速安装使用(下)

近期,星环社区版家族发布了单机即可一键部署、开箱即用的开发版Scope,本篇文章将介绍如何安装部署使用星环自研的搜索引擎Scope,以及提供使用示例

2024-06-20 11:27:50 576

原创 【0-1系列】从0-1快速了解搜索引擎是什么以及怎么用(上)

近日,社区版家族社区开发版系列重磅发布搜索引擎Scope开发版以及图数据库StellarDB开发版。 为了可以让大家更进一步了解产品,本系列文章将从搜索引擎的背景概念开始介绍,深入浅出的为读者介绍Scope的优势以及能力,在最后一个章节也将为大家提供使用示例辅助读者上手体验。

2024-06-20 11:15:17 1424 2

原创 搜索引擎数据库介绍

本篇文章主要介绍了搜索引擎数据库的基础背景及知识。

2024-06-20 11:10:25 1050

原创 【星环社区版TDH2024年度大事件】全新版本?全新组件?性能提升10倍?

社区版是一个契机,希望广大用户可以通过社区版产品更快速的探索、发现、体验到星环家族的新产品以及新功能。此次社区版家族正式上线V2024.5版本,本篇文章将概括性的介绍此次更新的核心功能点。

2024-06-19 14:08:08 1656

原创 不同表格式下的小文件治理方式(开源RC file/ORC/Text非事务表、事务表、Holodesk表格式..)

本篇文章将为读者介绍不同表格式如何处理小文件合并相关问题,涉及非事务表、事务表以及星环自研的高性能Holodesk表。

2024-06-19 11:35:09 1346

原创 小文件过多的解决方法(不同阶段下的治理手段,SQL端、存储端以及计算端)

在生产上小文件一直以来都是很棘手的问题,从上游到下游的各个步骤都有可能产生小文件问题,虽然技术上星环针对此类问题做了很多处理机制。本篇文章介绍了不同阶段下的小文件问题如何处理。

2024-06-18 17:52:56 850

原创 被小文件问题困扰?出现性能瓶颈?低配机器上不知道怎么运行大数据平台?

本次Meetup主题“交流、分享、答疑”,特邀星环高级技术专家分享大数据前沿技术,帮助大家解决日常使用过程中的开发和运维问题,更好地学习和利用大数据技术。作为基于企业级大数据基础平台TDH推出的社区版产品,TDH社区版一经推出即受到众多用户的青睐。同时,我们为大家准备了众多精美礼品,期待与各位的相聚~星环科技TDH社区版线下Meetup来啦!报名方式:点击下方链接或扫描二维码报名参加。

2024-05-13 16:58:21 234 2

原创 小文件治理系列之为什么会出现小文件问题,小文件过多问题的危害以及不同阶段下的小文件治理最佳解决手段

大数据场景下会产生海量文件,其中,小文件会对系统造成一系列影响。在实际业务中,小文件现象出现频率并不低,客户现场开发环境和或生产环境多或少都会遇到小文件问题,这些问题或来自上游系统,亦可能是因为表的分区分桶不合理,也可能是来自于不规范的sql等等。当小文件过多时,将会导致内存占用高、集群不稳定,增加计算资源的开支等一系列问题。因此小文件治理是必要的也是迫切的。

2024-05-07 15:58:58 988 1

原创 Raft in TDDMS--在星环分布式系统底层存储中Raft承担的作用以及能力

相比于3副本来说,5副本有更好的数据容错性。如图所示,对于写请求,客户端首先从master处获取要写的表的元信息(主要包含各个分片的元信息),接着客户端根据分片元信息,将写请求发送至对应的tablet server,在tablet server管理的数据分片上先写leader,leader收到客户端发送的写请求,经过 raft 算法在副本之间达成共识同步至follower(具体详见前述章节的介绍),写入日志之后各副本尝试应用写请求,满足leader+follower的1/2以上写完即可回复客户端写成功。

2024-02-04 10:36:13 1391 1

原创 Raft协议详解--背景+概念介绍+算法剖析

Raft提供了一种在计算系统集群中分布多个状态机的通用方法,可以确保集群中的每个节点都同意相同的一系列状态变更,同时其采用了更强的领导形式。比如日志条目仅会从leader节点流向其他节点,如果客户端与其他节点建立通信,那么其他节点将会将其重定向给leader,简化了日志复制等操作的管理。

2024-02-02 15:50:38 3963

原创 关于TDH社区版您可能想要知道的

给予了数据全生命周期的安全防护能力及一站式的综合运维管理能力,使用者除了可以借助可视化监控平台对系统负载,平台运行状况等指标进行统一管理与监控,亦可通过平台预置的告警通知等功能实现事前预警、事中告警、事后分析的全阶段运维效果。依托于TDH强大的技术底座,星环科技推出TDH社区版及社区开发版产品,充分降低了用户接触使用大数据技术的使用门槛以及使用成本, 用户可以轻松应对海量多源异构数据的高效存储,关联分析等业务需求。

2024-01-30 16:19:58 379 1

原创 星环分布式一致性技术是如何实现的?什么是分布式一致性协议?作用是什么?

举个比较有意思的例子,我们都知道在参与多人战斗的游戏时,当出现需要团体进攻时,大家的目标需要是一致的,比如是选择优先攻击输出还是先攻击血量低的,如果对方开团了,大家在没有优势的情况下是先撤退还是直接发起进攻?如果大家最开始的目标是一致的,比如如果开始开团就选择优先攻击输出。但是中途突然有个玩家玩着玩着摆烂不想玩了,跟其他几个人说要撤退或者自己跑去送人头了,有的玩家没听他的还是发起攻击,有的玩家蒙圈了也停止攻击了,那这种情况下就出现了决策不一致的情况,最终结果一定会跟预期结果出现偏差,导致整个团队的失败。

2023-12-19 11:11:39 882 1

原创 TDH社区版基础能力演示--数据库方言+CRUD能力

TDH社区版产品中配备了星环极具竞争力、成熟的关系型分析引擎Inceptor,具备完整的传统关系型数据库语法兼容能力,包括数据库方言Oracle/DB2/Teradata,同时也具备PL/SQL存储过程能力。Inceptor完整支持CRUD,具备完整关系型数据库的操作功能,比如增删改查Merge。本篇文章将为您演示社区版在数据库方言兼容性以及CRUD的能力。

2023-12-07 17:34:37 910

原创 免费的TDH社区版基础能力演示--计算隔离(离线跑批、OLAP分析业务演示)

TDH社区版具备task级别的资源管控,同时支持对user和单个query的计算资源分配,分配更灵活。本篇文章将从离线跑批及OLAP分析两个业务场景为您演示如何在安全管理组件Guardian上配置Furion Scheduler来对队列资源进行配额与权限管理。

2023-12-07 16:47:11 946

原创 免费的向量数据库Hippo来啦!!!极简资源、极速安装,大模型场景DIY快速体验!

星环科技向量数据库社区版正式发布,仅需3分钟即可搭建部署,构建属于自己的知识库,速来体验!!

2023-09-05 14:59:14 164

原创 手把手教你安装单机部署、开箱即用的TDH社区开发版

日前,星环科技TDH社区版新版本正式发布,除了全面增强产品运维能力、多模型能力之外,带来了一个全新的可以单机部署、开箱即用0配置的社区开发版,进一步降低了用户的资源成本。

2023-06-13 12:06:16 950 1

原创 仅需三步,即可一键启动的TDH社区开发版来啦!!!一切尽在掌握

日前,星环科技TDH社区版新版本正式发布,除了全面增强产品运维能力、多模型能力之外,带来了一个全新的可以单机部署、开箱即用0配置的社区开发版,进一步降低了用户的资源成本。

2023-06-13 11:43:17 237 1

原创 星环科技社区版TDH新增组件Hyperbase

日前,为了让大数据技术得到更广泛的使用与应用从而创造更高的价值,TDH推出了社区版来帮助初次接触使用TDH的用户更便捷、快速的进行大数据分析除了有Inceptor以及Hadoop3.0的精选组件之外,为了满足更多用户的需求, 此次新增了星环科技自主研发的实时NoSQL宽表数据库Transwarp Hyperbase

2022-09-27 18:45:31 1343

原创 星环科技TDH社区版版本来啦!!!快来看看

日前,星环科技正式推出了企业级一站式大数据基础平台TDH社区版。为了满足更多用户的需求,TDH社区版此次将分为订阅和免费两种模式,极大程度的降低了用户接触使用大数据技术的使用门槛以及使用成本,致力于为企业用户、高校师生、科研机构以及其他专业开发人员提供更轻量、更简单、更易用、更专业的数据分析开发环境。......

2022-06-07 11:01:42 905 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除