ArgoDB
文章平均质量分 70
因项目需要学习使用TDH,以ArgoDB摸索中,随笔记录学习心得
若愚致远
数据搬运工
展开
-
ArgoDB Holodesk表格式对应的小文件合并
当进行频繁的小数据量的写入操作,会导致出现大量的 base/delta 文件,并且内容很少(KB 级别),因此为了避免出现IO开销大,影响性能,内存占用高等一系列问题,小文件合并功能至关重要。本案例中,我们选择最近 7 天中,Compact 任务执行超过 5 分钟,且表的小文件数量大于 10 的条件进行筛选,列出小文件数量最多的 3 个表,我们可以基于此信息判断是否存在较多 Compact 慢的表,然后调整 Compact 参数,例如频率、资源分配等。菜单页面,我们可以查看各表当前的小文件数量。原创 2024-04-16 20:09:38 · 585 阅读 · 0 评论 -
ArgoDB分区合并
归档分区表的本质为范围分区表,所以创建语句与创建范围分区表一致,只需额外设置表参数"archive_partition"="true" 来区分为归档分区表。支持直接创建归档分区表和修改普通范围分区表为归档分区两种方式。,用户可以跨分区进行合并,将大量小文件合并成较大的文件,从而减少存储开销、元数据管理的开销以及处理时的任务调度开销。② 目前仅支持单值分区的合并成归档分区,,暂时不支持归档分区的再次合并;星环分布式分析型数据库ArgoDB在6.0及后续版本中。① 已经合并的分区不支持原有的修改操作;原创 2024-04-16 19:52:47 · 185 阅读 · 0 评论 -
通过工具将本地文件批量写入Holodesk
Impexp 工具借助多线程、pipeline 并行执行等方式实现高效写入,满足用户大规模数据写入需求图 5.2.1:通过工具批量导入。原创 2023-10-10 12:53:49 · 214 阅读 · 0 评论 -
用string代替oracle或者DB2的char和varchar,有什么注意的地方
可变长度的字符,其生成时会带有一个长度指定数(1和65355之间),用来定义字符串中的最大字符数。具体要看数据库使用的字符集,比如GBK,汉字就会占两个字节,英文1个,如果是UTF-8,汉字一般占3个字节,英文还是1个。而在ArgoDB中CHAR(n)、VARCHAR(n)、VARCHAR2(n)中的n的长度指的是unicode编码的长度,而不是字节长度,即n表示可以存储多少个字符。可变长度的字符,VARCHAR2生成时会带有一个长度指定数(1和65355之间),用来定义字符串中的最大字符数。原创 2023-10-10 11:39:58 · 301 阅读 · 0 评论 -
Argodb事务操作探索
更新操作可能是插入一条到base文件,再插入一条带有“delete”标记的记录到delta文件。2)当进行频繁的小数据量的写入操作,会导致出现大量的base/delta文件,并且内容很少(KB级别)ArgoDB的compact操作的主要目的是为了减少小文件数量,但是跨分区不能compact。对开发者来说,主要避免像TP库一样高频的做单条数据插入,这样会导致短时间内大量小文件。Argodb所有的写操作都会在底层写入一个新的文件,而不是写入已有文件中。举例:insert操作生成base文件,原创 2023-10-10 11:31:39 · 281 阅读 · 0 评论 -
db2和oracle 两种方言区别
方言影响存储的,比如有些字符串在A方言里是末尾补齐空格的,B方言是不补空格。如果用B方言读出来就以为空格是字符串里天生自带的,拿带着空格的字符串去处理,这种情况会引起一起不确定的行为。如果可以接受这个差异,并能够在业务脚本中处理这个情况,就可以混用db2和oracle方言,一般不建议混用。然后 比较的时候 我们都按照db2的方言忽略右空格去比较的 'a' = 'a '比如varchar2 我们存的时候是按 db2方言存的,'a '原创 2023-10-10 11:22:41 · 133 阅读 · 1 评论 -
ArgoDB分区分桶选取建议
假设有从1到10十个值,分配给三个Bucket,根据各值对10取模的结果,如图所示,为0的给第一个桶,为1的给第二个桶,为3的给第三个桶。扩展了单值分区的功能,使一个 Partition 能够包含某个字段值落在某一范围的所有记录,单值分区可能会因为某一分区字段值的记录数很多而导致数据严重倾斜到某一个分区,而 Range Partition 由于按照范围划分因此能够合并某些记录数少的单值分区,从而一定程度的避免了分区之间数据量差距过大的现象。分区表是一张逻辑表,不存储数据,数据实际是存储在分区上的。原创 2023-10-10 11:19:05 · 719 阅读 · 1 评论 -
系统表信息
udf 类型 (udf:输入单行数据输出单行数据;table_parameters_v 系统表存储了 ArgoDB 中所有表的各种属性的参数信息。table_parameters_v 系统表存储了 ArgoDB 中所有表的各种属性的参数信息。temporary_columns_v 系统表存储了 ArgoDB 中所有临时表的列信息。temporary_tables_v 系统表存储了 ArgoDB 中所有临时表的信息。temporary_tables_v 系统表存储了 ArgoDB 中所有临时表的信息。原创 2023-10-08 11:37:17 · 178 阅读 · 1 评论 -
数据倾斜时如何应对--倾斜key单独处理/MapJoin/SkewJoin的原理及使用方法
Common Join 的一个主要问题是在数据整理排序的过程上耗费了大量的资源,它会启动一个Task,Mapper会去读取两张表中的数据,然后处理数据后会对对他们进行排序、合并等操作,然后相同key的所有行数据都会分发到同一个节点上。但是MapJoin只适用于大表小表Join的情况,因为MapJoin会将指定表的数据全部加载在内存,表在被加载到内存后,数据大小会急剧膨胀,因此指定的表只能是小表。当存在大量倾斜key的时候,可以通过手动拆分,将倾斜与未倾斜的部分分别做处理,再将结果合并。原创 2023-10-08 10:09:19 · 199 阅读 · 1 评论 -
调整reduce个数
2)另外,有多少个reduce,就会有多少个输出文件,如果生成了很多个小文件,那么如果这些小文件作为下一个任务的输入,则也会出现小文件过多的问题;在设置reduce个数的时候也需要考虑这两个原则:处理大数据量利用合适的reduce数;使单个reduce任务处理数据量大小要合适;1)过多的启动和初始化reduce也会消耗时间和资源;(1)每个Reduce处理的数据量默认是256MB。(2)每个任务最大的reduce数,默认为1009。(3)计算reducer数的公式。设置每个job的Reduce个数。原创 2023-10-08 10:05:22 · 561 阅读 · 1 评论 -
TDH计算引擎针对数据倾斜现象的保护机制
Shuffle Write阶段当出现数据倾斜时将出现Bucket size is too large (>2G) after compress的报错提醒,此时应当调整reduce number或者调整分桶策略;原创 2023-10-08 09:58:38 · 704 阅读 · 1 评论 -
数据倾斜现象诱因、原理、影响
如果文件数量特别巨大,对文件读写的性能会带来比较大的影响,此外由于同时打开的文件句柄数量众多,序列化,以及压缩等操作需要分配的临时内存空间也可能会迅速膨胀到无法接受的地步,对内存的使用和GC带来很大的压力,在Executor内存比较小的情况下尤为突出,例如Spark on Yarn模式。当涉及到多个数据表时,JOIN是SQL中最常用的操作之一。JOIN的作用是将多个数据表中的数据组合在一起,从而使用户可以根据不同的条件组合过滤和查询多个表中的数据,最终提取记录形成一个新的结果集,实现数据关联和查询分析。原创 2023-10-08 09:56:36 · 134 阅读 · 1 评论 -
Spark计算框架
由于Spark Streaming采用了微批的处理方式,系统本身的吞吐量比较高,但是从应用的视角来看,数据从发生到计算结构的延时在500毫秒甚至以上,如果一个复杂逻辑涉及到多个流上的复杂运算,这个延时将会进一步放大,因此对一些延时敏感度比较高的应用,Spark Streaming的延时过高问题是非常严重的架构问题。除了Spark Core API以外,Spark还包含几个主要的组件来提供大数据分析和数据挖掘的能力,主要包括Spark SQL、Spark Streaming、Spark MLLib。原创 2023-10-08 09:53:21 · 56 阅读 · 1 评论 -
MR框架工作流程以及框架限制
后续Spark基于MR框架做了进一步的优化,解决了MapReduce计算框架的不足,基于内存和DAG的计算模式有效的减少了数据shuffle落磁盘的IO和子过程数量,实现了性能的数量级上的提升。在容错性方面,由于MapReduce的分布式架构设计,在设计之初即设定了硬件故障的常态性,因此其计算模型设计了大量的容错逻辑,如任务心跳、重试、故障检测、重分布、任务黑/灰名单、磁盘故障处理等机制,覆盖了从JobTracker、TaskTracker到Job、Task和Record级别的从大到小各个层级的故障处理。原创 2023-10-08 09:28:18 · 307 阅读 · 1 评论 -
Beeline 命令行连接 ArgoDB
登录 Transwarp Manager 平台-,开启了LDAP 认证(轻量级目录访问协议)登录至该节点,进入客户端上传到的目录,执行。管理平台,在页面右上角,下载客户端。并将其上传至集群中任一节点中。:用于身份认证的用户名。:要连接到的数据库。:用户名对应的密码。原创 2023-10-07 15:11:13 · 254 阅读 · 1 评论 -
ArgoDB初见
支持标准 SQL 语法,提供多模分析、实时数据处理、存算解耦、混合负载、数据联邦、异构服务器混合部署等先进技术能力。通过一个ArgoDB数据库,就可以满足数据仓库、实时数据仓库、数据集市、OLAP、AETP、联邦计算、隐私计算等各种业务需求。星环云原生操作系统,提供资源调度功能,能够根据业务系统按需分配资源,当业务变化时,能够动态调整资源池。点评就是该项目前为虚假信息,纯吹牛,没有CBO、MBO,只有未知性能的RBO。数据库工具,提供提供一键部署、配置、升级、扩缩容,提供服务监控、告警功能。原创 2023-10-07 11:16:12 · 496 阅读 · 1 评论