自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 资源 (1)
  • 收藏
  • 关注

原创 ArgoDB Holodesk表格式对应的小文件合并

当进行频繁的小数据量的写入操作,会导致出现大量的 base/delta 文件,并且内容很少(KB 级别),因此为了避免出现IO开销大,影响性能,内存占用高等一系列问题,小文件合并功能至关重要。本案例中,我们选择最近 7 天中,Compact 任务执行超过 5 分钟,且表的小文件数量大于 10 的条件进行筛选,列出小文件数量最多的 3 个表,我们可以基于此信息判断是否存在较多 Compact 慢的表,然后调整 Compact 参数,例如频率、资源分配等。菜单页面,我们可以查看各表当前的小文件数量。

2024-04-16 20:09:38 533

原创 ArgoDB分区合并

归档分区表的本质为范围分区表,所以创建语句与创建范围分区表一致,只需额外设置表参数"archive_partition"="true" 来区分为归档分区表。支持直接创建归档分区表和修改普通范围分区表为归档分区两种方式。,用户可以跨分区进行合并,将大量小文件合并成较大的文件,从而减少存储开销、元数据管理的开销以及处理时的任务调度开销。② 目前仅支持单值分区的合并成归档分区,,暂时不支持归档分区的再次合并;星环分布式分析型数据库ArgoDB在6.0及后续版本中。① 已经合并的分区不支持原有的修改操作;

2024-04-16 19:52:47 161

原创 python D1

词法分析Python 程序由 解析器 读取,输入解析器的是 词法分析器 生成的 形符 流。词法分析器怎样把文件拆成形符:Python 将读取的程序文本转为 Unicode 代码点;编码声明用于指定源文件的编码,默认为 UTF-8,详见 PEP 3120。源文件不能解码时,触发 SyntaxError。如下注意点:1、编码声明Python 脚本第一或第二行的注释匹配正则表达式 coding[=:]\s*([-\w.]+) 时,该注释会被当作编码声明;这个表达式的第一组指定了源码文件的编码。

2023-12-07 22:20:59 90

原创 通过工具将本地文件批量写入Holodesk

Impexp 工具借助多线程、pipeline 并行执行等方式实现高效写入,满足用户大规模数据写入需求图 5.2.1:通过工具批量导入。

2023-10-10 12:53:49 195

原创 用string代替oracle或者DB2的char和varchar,有什么注意的地方

可变长度的字符,其生成时会带有一个长度指定数(1和65355之间),用来定义字符串中的最大字符数。具体要看数据库使用的字符集,比如GBK,汉字就会占两个字节,英文1个,如果是UTF-8,汉字一般占3个字节,英文还是1个。而在ArgoDB中CHAR(n)、VARCHAR(n)、VARCHAR2(n)中的n的长度指的是unicode编码的长度,而不是字节长度,即n表示可以存储多少个字符。可变长度的字符,VARCHAR2生成时会带有一个长度指定数(1和65355之间),用来定义字符串中的最大字符数。

2023-10-10 11:39:58 279

原创 Argodb事务操作探索

更新操作可能是插入一条到base文件,再插入一条带有“delete”标记的记录到delta文件。2)当进行频繁的小数据量的写入操作,会导致出现大量的base/delta文件,并且内容很少(KB级别)ArgoDB的compact操作的主要目的是为了减少小文件数量,但是跨分区不能compact。对开发者来说,主要避免像TP库一样高频的做单条数据插入,这样会导致短时间内大量小文件。Argodb所有的写操作都会在底层写入一个新的文件,而不是写入已有文件中。举例:insert操作生成base文件,

2023-10-10 11:31:39 260

原创 db2和oracle 两种方言区别

方言影响存储的,比如有些字符串在A方言里是末尾补齐空格的,B方言是不补空格。如果用B方言读出来就以为空格是字符串里天生自带的,拿带着空格的字符串去处理,这种情况会引起一起不确定的行为。如果可以接受这个差异,并能够在业务脚本中处理这个情况,就可以混用db2和oracle方言,一般不建议混用。然后 比较的时候 我们都按照db2的方言忽略右空格去比较的 'a' = 'a '比如varchar2 我们存的时候是按 db2方言存的,'a '

2023-10-10 11:22:41 112 1

原创 ArgoDB分区分桶选取建议

假设有从1到10十个值,分配给三个Bucket,根据各值对10取模的结果,如图所示,为0的给第一个桶,为1的给第二个桶,为3的给第三个桶。扩展了单值分区的功能,使一个 Partition 能够包含某个字段值落在某一范围的所有记录,单值分区可能会因为某一分区字段值的记录数很多而导致数据严重倾斜到某一个分区,而 Range Partition 由于按照范围划分因此能够合并某些记录数少的单值分区,从而一定程度的避免了分区之间数据量差距过大的现象。分区表是一张逻辑表,不存储数据,数据实际是存储在分区上的。

2023-10-10 11:19:05 648 1

原创 系统表信息

udf 类型 (udf:输入单行数据输出单行数据;table_parameters_v 系统表存储了 ArgoDB 中所有表的各种属性的参数信息。table_parameters_v 系统表存储了 ArgoDB 中所有表的各种属性的参数信息。temporary_columns_v 系统表存储了 ArgoDB 中所有临时表的列信息。temporary_tables_v 系统表存储了 ArgoDB 中所有临时表的信息。temporary_tables_v 系统表存储了 ArgoDB 中所有临时表的信息。

2023-10-08 11:37:17 155 1

原创 数据倾斜时如何应对--倾斜key单独处理/MapJoin/SkewJoin的原理及使用方法

Common Join 的一个主要问题是在数据整理排序的过程上耗费了大量的资源,它会启动一个Task,Mapper会去读取两张表中的数据,然后处理数据后会对对他们进行排序、合并等操作,然后相同key的所有行数据都会分发到同一个节点上。但是MapJoin只适用于大表小表Join的情况,因为MapJoin会将指定表的数据全部加载在内存,表在被加载到内存后,数据大小会急剧膨胀,因此指定的表只能是小表。当存在大量倾斜key的时候,可以通过手动拆分,将倾斜与未倾斜的部分分别做处理,再将结果合并。

2023-10-08 10:09:19 164 1

原创 调整reduce个数

2)另外,有多少个reduce,就会有多少个输出文件,如果生成了很多个小文件,那么如果这些小文件作为下一个任务的输入,则也会出现小文件过多的问题;在设置reduce个数的时候也需要考虑这两个原则:处理大数据量利用合适的reduce数;使单个reduce任务处理数据量大小要合适;1)过多的启动和初始化reduce也会消耗时间和资源;(1)每个Reduce处理的数据量默认是256MB。(2)每个任务最大的reduce数,默认为1009。(3)计算reducer数的公式。设置每个job的Reduce个数。

2023-10-08 10:05:22 515 1

原创 TDH计算引擎针对数据倾斜现象的保护机制

Shuffle Write阶段当出现数据倾斜时将出现Bucket size is too large (>2G) after compress的报错提醒,此时应当调整reduce number或者调整分桶策略;

2023-10-08 09:58:38 644 1

原创 数据倾斜现象诱因、原理、影响

如果文件数量特别巨大,对文件读写的性能会带来比较大的影响,此外由于同时打开的文件句柄数量众多,序列化,以及压缩等操作需要分配的临时内存空间也可能会迅速膨胀到无法接受的地步,对内存的使用和GC带来很大的压力,在Executor内存比较小的情况下尤为突出,例如Spark on Yarn模式。当涉及到多个数据表时,JOIN是SQL中最常用的操作之一。JOIN的作用是将多个数据表中的数据组合在一起,从而使用户可以根据不同的条件组合过滤和查询多个表中的数据,最终提取记录形成一个新的结果集,实现数据关联和查询分析。

2023-10-08 09:56:36 112 1

原创 Spark计算框架

由于Spark Streaming采用了微批的处理方式,系统本身的吞吐量比较高,但是从应用的视角来看,数据从发生到计算结构的延时在500毫秒甚至以上,如果一个复杂逻辑涉及到多个流上的复杂运算,这个延时将会进一步放大,因此对一些延时敏感度比较高的应用,Spark Streaming的延时过高问题是非常严重的架构问题。除了Spark Core API以外,Spark还包含几个主要的组件来提供大数据分析和数据挖掘的能力,主要包括Spark SQL、Spark Streaming、Spark MLLib。

2023-10-08 09:53:21 46 1

原创 MR框架工作流程以及框架限制

后续Spark基于MR框架做了进一步的优化,解决了MapReduce计算框架的不足,基于内存和DAG的计算模式有效的减少了数据shuffle落磁盘的IO和子过程数量,实现了性能的数量级上的提升。在容错性方面,由于MapReduce的分布式架构设计,在设计之初即设定了硬件故障的常态性,因此其计算模型设计了大量的容错逻辑,如任务心跳、重试、故障检测、重分布、任务黑/灰名单、磁盘故障处理等机制,覆盖了从JobTracker、TaskTracker到Job、Task和Record级别的从大到小各个层级的故障处理。

2023-10-08 09:28:18 277 1

原创 如何计算Task数量来充分利用上CPU

因为任务的分配是以Task为粒度执行的,每一个Task同时只会执行在一个Executor上,是用一个vCore资源,因此如果要充分利用上CPU,就需要干预Task数量。默认会先2个Task执行(参数 ngmr.num.parts.try.limit 决定,limit不够再起新的task),因此不要进行大数据量的limit,性能非常差。因此可以看到,示例的任务中,stage4的task数位605,stage5的task数是1000,而stage6的task数就是600了。示例中就是裁剪后只剩1个task。

2023-10-07 17:13:44 99 1

原创 Beeline 命令行连接 ArgoDB

登录 Transwarp Manager 平台-,开启了LDAP 认证(轻量级目录访问协议)登录至该节点,进入客户端上传到的目录,执行。管理平台,在页面右上角,下载客户端。并将其上传至集群中任一节点中。:用于身份认证的用户名。:要连接到的数据库。:用户名对应的密码。

2023-10-07 15:11:13 214 1

原创 ArgoDB初见

支持标准 SQL 语法,提供多模分析、实时数据处理、存算解耦、混合负载、数据联邦、异构服务器混合部署等先进技术能力。通过一个ArgoDB数据库,就可以满足数据仓库、实时数据仓库、数据集市、OLAP、AETP、联邦计算、隐私计算等各种业务需求。星环云原生操作系统,提供资源调度功能,能够根据业务系统按需分配资源,当业务变化时,能够动态调整资源池。点评就是该项目前为虚假信息,纯吹牛,没有CBO、MBO,只有未知性能的RBO。数据库工具,提供提供一键部署、配置、升级、扩缩容,提供服务监控、告警功能。

2023-10-07 11:16:12 433 1

原创 map和reduce数量如何确定

可以看到前提是,我们要指定mod,也即是分桶的个数,其实该值也是运行的最大reduce个数,生产的blockSize256M,因此分桶默认是11个桶,1个分桶两个块,可以支持1100W/天,另外由于分桶关联考虑,其余的以11的倍数设置分桶,如11,22,33,44,55等,另外分桶增加分区字段的ETL_DT,具体效果待后续观察。有一点关系,因为reducer的数量是由map输出的数据的大小决定的.map输出的数据量越大,reduce的数量相应的也就越多。减少map的数量,map输出的文件是要落地的。

2023-07-10 12:06:44 760 1

原创 win10系统system进程占用cpu高怎么解决

win10系统system进程占用cpu高

2022-11-18 11:58:38 10590 4

原创 杂记存稿1

--LINUXdu -sh * 查看各文件占用空间du -h --max-depth=1 查看各文件夹占用空间df -h 查看整体空间使用情况--------------DBCA--dbca -silent -createDatabase -templateName Data_Warehouse.dbc -gdbname MAZESIT -sid MAZESIT -systemPassword...

2022-09-12 23:19:54 79

原创 概率之说【转】

为了活着,永远做大概率事件!为了救命,永远相信小概率事件!动物界里,顶级的存在如虎、如豹、如狮、如犬、如狼、如豺等等,它们脚上都有厚厚的肉垫,走起路来静悄悄,还压低身子,就为了致命一击更加迅猛。而食草类的动物,牛啊、羊啊、马啊,驴啊,那蹄子都硬的很,走起路来滴滴答答的清脆,就是告诉天敌:“我来了,我来了。”食物链越高级的动物,风险意识越强,股市投资也是这个规律。东北,有一种动物叫做傻狍子,这玩意本不稀缺,但奈何太过单纯没有危险意识,生生把自己这个品种玩成了保护物种。它们好奇心很重,遇到任何事情都会跑

2022-05-01 23:33:24 77

原创 ORACLE的impdp和expdp命令

EXP和IMP是客户端工具程序,它们既可以在客户端使用,也可以在服务端使用。EXPDP和IMPDP是服务端的工具程序,他们只能在ORACLE服务端使用,不能在客户端使用。IMP只适用于EXP导出的文件,不适用于EXPDP导出文件;IMPDP只适用于EXPDP导出的文件,而不适用于EXP导出文件。expdp或impdp命令时,可暂不指出用户名/密码@实例名 as 身份,然后根据提示再输入,如:exp...

2018-05-08 17:32:05 6195

原创 oracle自动导出查询的DOS程序

将下列内容保存成一个.bat文件,运行即可echo  alter session set nls_date_format='yyyy-mm-dd hh24:mi:ss'; >test.sqlecho  SET ECHO OFF NEWPAGE 0  SPACE 0  >> test.sqlecho    set heading  off  >>test.sqlecho...

2018-03-23 16:47:13 334

原创 ORACLE静默安装

1.  登录到root用户下,检查以下包等是否存在,如果不存在,则需要安装:(root用户)检查:rpm -q package-name安装:rpm -ivh package-name--版本为下列版本或以上版本的binutils-2.19  gcc-4.3         gcc-32bit-4.3   依赖 gcc43-32bit gcc-c++-4.3       glibc-2.9glib...

2018-03-23 16:34:00 223

原创 Oracle 11g AMM设置

最近在部署ORACLE时,部署人员对PGA和SGA设置一筹莫展,其实可以用Oracle 11g的AMM的(默认是开启的)。我们在安装过程中,指定Oracle使用内存的百分比,这个取值就作为MEMORY_TARGET和MEMORY_MAX_TARGET的初始取值使用。如果这两个参数设置为非零取值,那么Oracle就是采用AMM管理策略的。同时,如果我们设置这两个参数为0,则AMM自动关闭。对应的SG...

2018-03-23 16:27:20 1596

银行指标库设计方案文档

数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,数据仓库公共层的建设范畴包含公共明细层(以下简称“MK层”)、共性加工层(以下简称“KR层”)和指标层(以下简称“CI层”),三者形成统一的数据平台,为下游应用数据集市提供共享和复用的基础数据,同时通过对数据整合的加工处理方式,提高了数据的可用性和稳定性

2023-10-17

MyBlog一个java的博客

这是一个博客网站的代码,MyBlog一个java的博客

2010-03-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除