DolphinDB 编程进阶：掌握这十个细节，让你的代码更出色

DolphinDB智臾科技

于 2024-08-05 17:03:56 发布

阅读量1k

点赞数 7

分类专栏：时序数据库使用教程文章标签：数据库时序数据库 DolphinDB 编程语言数据分析

本文链接：https://blog.csdn.net/qq_41996852/article/details/140931640

版权

时序数据库使用教程专栏收录该内容

37 篇文章 4 订阅

订阅专栏

众所周知，编程细节不仅关乎代码的美观与整洁，更是确保软件质量、提升开发效率、减少维护成本以及保障系统稳定性的基石。

今天和大家分享的内容是：使用 DolphinDB 编程时，十个常被忽略但至关重要的细节。本文涵盖了元编程技巧、数据类型处理技巧以及分区策略优化等方面，旨在帮助大家有效避免分区冲突、计算错误、性能瓶颈、堆栈溢出等问题，从而在数据处理的征途上更加游刃有余。

1. 使用 `mr` 函数写入分布式表时注意避免分区冲突

mr 函数，即 Map-Reduce，是在 DolphinDB 分布式计算中最常用的函数之一。通常，数据表会被划分为多个分区，每个分区表被视作一个数据源（ds）。mapFunc 参数负责在每个 ds 内部处理数据，可选参数 reduceFunc 会将 mapFunc 的返回值合并或汇总。若未使用 reduceFunc，就会直接返回 mapFunc 的结果，也就是由所有返回值组合成的元组。

在进行复杂计算时，我们通常在分区内计算数据，并在映射过程中直接将其写入另一个数据库表。但是，如果 mapFunc 中包含写入另一个表的操作，且原库表和结果库表的分区不一致，就可能会遇到写入冲突的报错。

1.1 错误代码

下面使用 mr 对一个时间和标的均为 value 分区的库表做计算，完成后将结果写入一个仅按时间 value 分区的库表中：

def myMapFunc(table){
	minReturn = select `dayReturnSkew as factorname, skew(ratios(close)) as val from loadTable("dfs://k_minute_level","k_minute") group by date(tradetime) as tradetime, securityid
	loadTable("dfs://K_FACTOR_VERTICAL","factor_k").append!(minReturn)
}
ds = sqlDS(<select * from  loadTable("dfs://k_minute_level","k_minute")>)
mr(ds,myMapFunc)

运行这段代码会报错：1 map call(s) failed. The error message for the first failed call is: <ChunkInTransaction>filepath '/K_FAC/TOR_VERTICAL/202001M_202101M/dayReturnSkew/a' has been owned by transaction 27 RefId: S00002。

这是因为上述例子中，mr 数据源的分区方式和目标写入库表的分区方式是冲突的，即多个数据源中的计算结果对应了待写入库表的同一个分区。例子中的数据源涉及到三个分区，而计算结果对应的待写入库表只写入一个分区，在三个并行计算完成后，同时往同一个分区写入，会发生分区冲突，抛出异常，写入失败。

这种情况下，每一个 map 的结果写入结果表时，最好是串行写入。串行写入的方法有很多，包括：

在 mr 中不做写入，只做计算。拿到返回的结果后，使用 unionAll 将多个结果表进行合并，再一次性写入目标库表。
在 mr 的 finalFunc 中完成合并结果和写入目标库表的操作。
如果 mr 的计算结果很大，在内存中无法合并结果，则可以将结果写入流表，由流表的 handler 来串行写入目标库表。

1.2 解决方案

下列代码中，我们在 finalFunc 里对各个 ds 的计算结果进行了合并，再将合并结果写入目标库表，可以有效避免分区冲突。

def myMapFuncCorrect(table){
	minReturn = select `dayReturnSkew as factorname, skew(ratios(close))	 as val from loadTable("dfs://k_minute_level","k_minute") group by date(tradetime) as tradetime, securityid
	return minReturn
	}
def unionAndWrite(result){
	multi_result = unionAll(result,false)
	return tableInsert(loadTable("dfs://K_FACTOR_VERTICAL","factor_k"), multi_result)
	}
mr(ds, myMapFuncCorrect, , unionAndWrite)

2. 留意空值的数据类型

在 DolphinDB 中，空值既可以是无特定类型的（如 NULL），也可以是特定类型的（如 int(NULL)、double(NULL)、string(NULL) 等）。在向强类型的向量或表中填充或更新空值时，必须确保空值的数据类型与向量类型或表中对应列的类型相匹配。

2.1 错误代码

下面这段代码试图更新表中的空值：

id = `a`b`c
val = 1 2 3
t1 = table(id, val)
t2 = select NULL as type, * from t1
update t2 set type = "S"

这段代码将会报错：The data type of the new values does not match the data type of column type.

这是因为在生成 t2 时，没有指定空值的数据类型，生成了 VOID 类型的空值，从而导致 type 列的类型为 VOID。在更新（update） t2 时，由于 “S” 是 STRING 类型，与 type 列的类型不匹配，便无法将其更新到 type 列中。

2.2 解决方案

下列代码中，我们在生成 t2 时，显式指定了 type 列空值的类型为 STRING 类型，因此可以正常 update t2，不会报错。

id = `a`b`c
val = 1 2 3
t1 = table(id, val)
t2 = select string(NULL) as type, * from t1
update t2 set type = "S"

3. 注意矩阵与表之间的转换

在做计算的时候，经常会遇到要转换数据结构的情况，譬如将表转为矩阵。但是由于矩阵和表的性质不同，普通转换的时候可能会缺失一些信息（如表的列名、矩阵的行列标签等）。因此，在转换过程中，我们需要注意补充这些缺失的信息。

3.1 错误代码

t = table(stretch(2020.01.01..2020.01.05, 10) as Date,take(`AAPL`BABA,10) as sym, take(`alpha1,10) as factorName, 0.1 0.2 0.11 0.22 0.13 0.5 0.6 0.4 0.44 0.12 as factorValue)
m = exec factorValue from t pivot by Date,sym
m

输出结果为：

           AAPL BABA
           ---- ----
2020.01.01|0.1  0.2 
2020.01.02|0.11 0.22
2020.01.03|0.13 0.5 
2020.01.04|0.6  0.4 
2020.01.05|0.44 0.12

随后，将矩阵 m 转换为表：

table(m)

预期的输出为：

Date       AAPL BABA
---------- ---- ----
2020.01.01 0.1  0.2 
2020.01.02 0.11 0.22
2020.01.03 0.13 0.5 
2020.01.04 0.6  0.4 
2020.01.05 0.44 0.12

实际输出如下，其中 matrix 的 label 列丢失：

AAPL BABA
---- ----
0.1  0.2 
0.11 0.22
0.13 0.5 
0.6  0.4 
0.44 0.12

由于矩阵的值不包括矩阵的行标签，因此在矩阵转换为表时，只会把矩阵的值转成表的列。如果需要保证矩阵中的标签列不丢失，并且转成表中的首列，则需要手动添加。反之亦然，如果要将表的内容转为矩阵，那么需要先剔除目标矩阵中的标签列，把目标值的列先转成矩阵，再将标签列手动添加进矩阵。

3.2 解决方案

//将矩阵转成正确的表
correctT = table(m.rowNames()) join table(m)
//将表转换成正确的矩阵
correctM = matrix(correctT[,1:]).rename!(correctT.Date,correctT.colNames()[1:])

矩阵转表时，将矩阵的行标签通过rowNames()函数取出，拼接到转换后的表中。表转矩阵时，将值所在的列转成矩阵，接着用rename!()函数给矩阵列和行添加标签。

4. 表连接时注意键值冗余

表连接是通过连接谓词来合并两张或者多张表的数据，从而创建新表的函数。在进行表连接时，如果连接列存在多条匹配记录，通常会返回所有匹配记录。因此，如果关联列有大量重复值，可能会导致结果表规模急剧膨胀，甚至引发内存溢出（OOM）等问题。

4.1 错误代码

下面这段代码将两个表做左连接：

t1 = table(`a`b`c as id, 1 2 3 as val1)
t2 = table(`a`a`a`b`b`b`c`c`c as id, 4..12 as val2)
t1.lj(t2,`id)

将会得到结果：

id val1 val2
-- ---- ----
a  1    4   
a  1    5   
a  1    6   
b  2    7   
b  2    8   
b  2    9   
c  3    10  
c  3    11  
c  3    12

这是因为，左连接（lj）会返回左表中所有与右表匹配的记录。如果右表中没有匹配的记录，将会返回 NULL；如果右表中有多条匹配记录，将会返回所有的匹配记录。因此，由于右表中的 id 列有很多重复值，实际结果会比左表行数多得多。想要保证返回结果的行数与左表的行数相等，可以使用左半连接 lsj 函数，如果右表中有多条匹配记录，lsj 将会取第一条的匹配记录。

4.2 解决方案

t1 = table(`a`b`c as id, 1 2 3 as val1)
t2 = table(`a`a`a`b`b`b`c`c`c as id, 4..12 as val2)
t1.lsj(t2,`id)

如上，我们使用左半连接 lsj 来连接两个表，就不会出现匹配多次的冗余情况。

5. SQL 中避免变量名与列名同名

DolphinDB 支持多范式编程，包括 SQL 编程、命令式编程和函数式编程。在 SQL 语句中，列名可能与函数名或变量名相同。当三者产生歧义时，DolphinDB 会将其视为列名。若想表示函数的含义，可以在变量名称前加地址符 &。然而，当列名与变量名产生歧义时，就无法通过语法来消除歧义了。

注意，在 DolphinDB 中的 SQL 中，列名是大小写不敏感的。因此，取变量名时尽量不要与表中字段重名，以免出现不符合预期的返回结果。

5.1 错误代码

下面这段代码试图删除指定日期的数据：

t = table(2020.01.01..2020.01.05 as Date)

date = 2020.01.01
delete from t where Date = date
t.Date

正常情况下，这段代码预期会返回向量 [2020.01.02,2020.01.03,2020.01.04,2020.01.05]，但实际会返回空值，表示表 t 中已无数据。

在这个 where 语句中，由于列名具有最高优先级， "=" 右边的 "date" 会优先查找是否存在名为 "date" 的列。由于列名不区分大小写，"=" 右边的 "date" 会被识别为表 t 中的 "Date" 列。因此，在 where 条件中，这样的写法会被解释为 "列date = 列date"，意味着每一条记录都符合 where 条件，从而导致表 t 被清空。

5.2 解决方案

避免变量名与列名同名，例如把 date 变量改成 date1 即可。

t = table(2020.01.01..2020.01.05 as Date)
date1 = 2020.01.01
delete from t where Date = date1

6. 利用元编程简化多列数据计算

在使用 SQL 对表的多列进行计算时，手写 SQL 不仅繁琐，而且容易出错。因此，在对表内多列进行计算时，我们可以利用元编程来简化代码逻辑并提高准确性。如果想学习元编程相关的更多内容，可以阅读教程：元编程。

6.1 繁琐代码

手写 SQL 十分繁琐：

date = 2023.01.01..2023.01.10
code = take(`SH0001,10)
price = rand(10.0,10)
t = table(date,code,price)

res = select date, price, code, mmax(price,2) as mmax_2d, mmax(price,5) as mmax_5d, 
mmax(price,7) as mmax_7d, mmin(price,2) as mmin_2d, mmin(price,5) as mmin_5d, 
mmax(price,7) as mmin_7d, mavg(price,2) as mavg_2d, mavg(price,5) as mavg_5d, 
mavg(price,7) as mavg_7d, mstd(price,2) as mstd_2d, mstd(price,5) as mstd_5d, 
mstd(price,7) as mstd_7d from t context by code

6.2 优化方案

如下所示，我们使用 cross 函数结合匿名函数，生成了所有需要计算的因子的源代码，并加入到一个 metrics 向量中，即可用元编程函数 sql 方便地计算得到结果。

date = 2023.01.01..2023.01.10
code = take(`SH0001,10)
price = rand(10.0,10)
t = table(date,code,price)

factor = `mmax`mmin`mavg`mstd
windowSize = 2 5 7
metrics=[<date>,<code>,<price>]

f = def (x, y){return sqlCol(`price, partial(funcByName(x),,y),
		x + "_" + string(y) + "d")}
metrics.appendTuple!(cross(f, factor, windowSize).flatten())

res = sql(select=metrics, from = t, groupBy=sqlCol(`code), groupFlag=0).eval()

7. 注意元组的追加行为

在 DolphinDB 中，元组（ANY VECTOR）是一种特殊的向量类型，它允许元素类型不一致，其类型可以是表、矩阵、字符串向量、数值向量等。因此，在向元组中添加元素时，我们需要明确是将整个目标添加到元组中，还是将目标中的元素分别添加到元组中。

例如，在元编程中拼接元代码时，直接拼接可能会得到不符合预期的结果。

7.1 错误代码

比如一个表中有这些字段："dDate", "symbol", "open", "close", "high", "low"。目标是对除了日期和 symbol 字段外的其他字段做 demean 操作（原值-平均值）。在用元编程写 select 参数的时候可能会这样写：

colName = ["dDate", "symbol", "open", "close", "high", "low"]
colNoCal = sqlCol(colName[0:2])
colCal = each(makeUnifiedCall{demean}, sqlCol(colName[2:]))
selects = colNoCal join colCal
//预期的行为：(< dDate >,< symbol >,< demean(open) >,< demean(close) >,< demean(high) >,< demean(low) >)
//实际的输出：(< dDate >,< symbol >,(< demean(open) >,< demean(close) >,< demean(high) >,< demean(low) >))

可以看到实际输出中的元组只有三个元素，第三个元素是一个包含4个元素的元组。由于元组类型可以接受任何类型，因此在将 colCal 这个变量使用 join 添加到 colNoCal 时，colCal 将会被整体添加到 colNoCal 中。在元编程中，我们需要将 colCal 中的元素铺开加入到 colNoCal 中，因此需要逐个调用 join，将其一个个加进元组中。

7.2 解决方案

metrics = colNoCal
metrics.appendTuple!(colCal, wholistic = false)
metrics

如上所示，我们使用 appendTuple! 函数，当 wholistic 参数为 false 时，就能够将 colCal 中的每一个元素依次追加到 metrics 中，得到符合预期的结果。

8. 正确使用 WHERE 子句进行分区剪枝

在查询分布式表时，我们往往只需要查询部分分区的数据。当数据量较大时，过滤条件的不同写法会造成查询耗时的巨大差异。查询分布式表时，当 WHERE 子句中的过滤条件满足以下要求时，可以进行分区剪枝，加快查询速率。

当对采用 VALUE 分区、RANGE 分区或 LIST 分区的分布式表做查询时，若 where 子句中某个过滤条件同时满足以下条件，则系统只加载与查询相关的分区，以节省查询耗时：
- 仅包含分布式表的原始分区字段、使用关系运算符（<, <=, =, ==, >, >=, in, between）或逻辑运算符（or, and），以及常量（包括常量与常量的运算）
- 非链式条件（例如100<x<200）
- 过滤逻辑可以缩窄相关分区范围

当对采用 HASH 分区的分布式表做查询时，若 where 子句中某个过滤条件满足以下条件，系统会进行分区剪枝：
- 包含分布式表的原始分区字段，使用关系运算符（=, ==, in, between）或逻辑运算符（or, and），以及常量（包括常量与常量的运算）。注意：当分区字段是 STRING 类型时，使用 between 运算符不能进行剪枝。

若 WHERE 子句中的过滤条件不满足以上要求，则会遍历所有分区进行查询。因此，在 WHERE 条件中，需要正确进行分区剪枝。如果想了解 DolphinDB 中关于时间类型的比较和分区剪枝的更多细节，可以阅读：DolphinDB 时间类型比较规则。

8.1 错误代码

snapshot 是一个分区表，该表按天做了 VALUE 分区，分区字段为 DateTime。下面是错误的查询方式：

t1 = select count(*) from snapshot 
		   where temporalFormat(DateTime, "yyyy.MM.dd") >= "2020.06.01" and temporalFormat(DateTime, "yyyy.MM.dd") <= "2020.06.02" 
		   group by SecurityID

// 耗时 4145 ms

运行如下代码，使用 sqlDS 查看该查询涉及的分区数：

sqlDS(<select count(*) from snapshot 
		   where temporalFormat(DateTime, "yyyy.MM.dd") >= "2020.06.01" and temporalFormat(DateTime, "yyyy.MM.dd") <= "2020.06.02" 
		   group by SecurityID>).size()

>> 752

显然，对于按天分区的 snapshot，查询两天的数据并不应该涉及 752 个分区，说明该查询没有做分区剪枝。这是因为在该查询中，对分区字段套用了 temporalFormat 函数，先对所有日期进行转换，再去和对应日期比较，导致系统需要扫描所有分区，耗时大大增加。

8.2 解决方案

使用 between 谓词来指定分区字段所在的查询区间，能够正确做到分区剪枝。我们可以看到正确的查询仅涉及了两个分区，耗时大大减少，仅为 92ms。

sqlDS(<select count(*) from snapshot 
		   where date(DateTime) between 2020.06.01 : 2020.06.02 group by SecurityID>).size()

t2 = select count(*) from snapshot 
		   where date(DateTime) between 2020.06.01 : 2020.06.02 group by SecurityID

9. 灵活使用字典和元编程

在进行计算时，我们经常会遇到一些通用的公式，这些公式往往以字符串的形式生成。同时，我们希望公式中的变量能够引用会话（session）中已存在的变量。然而 DolphinDB 中没有全局变量，那么如何能实现公式中变量的转换与输出呢？

9.1 错误代码

比如期望在函数内部对变量做计算，例如：”B+C“，得到的结果并不符合预期。

a = 1
b = 2
def funcA(a,b){
	B = a+1
	C = b+2
	funcExpr = "B+C"
	return parseExpr(funcExpr).eval()
	}
funcA(a,b)	
//期望的输出：6
//实际的输出：SQL context is not initialized yet.

这是因为，parseExpr 函数解析变量时，首先搜索会话中的局部变量，再搜索共享变量，但不会搜索函数体内定义的局部变量。因此，需要的变量 B 和 C 均找不到，最终保存。想要找到需要的变量，则应当通过字典传入。

9.2 解决方案

如下所示，我们创建了一个字典 d，作为 parseExpr 的参数，即可完成计算。

a = 1
b = 2
def funcA(a, b){
	funcExpr = "B+C"
	d = dict(`B`C, [a+1, b+2])
	return parseExpr(funcExpr, d).eval()
}
funcA(a, b)

10. 避免将大结果集直接返回客户端

在使用 SQL 查询数据时，如果直接将结果返回给客户端而不赋值给变量，不仅会导致结果无法修改和参与后续计算，还可能因为结果集过大而导致 GUI 或 Web 集群管理界面等终端堆栈溢出并抛出异常。因此，在查询数据时，我们应该尽量将结果赋值给一个变量而不是直接返回给客户端。

10.1 错误代码

下述代码将会在 GUI 抛出异常：Java heap space，在 Web 集群管理界面抛出异常：Out of Memory。

select * from loadTable("dfs://StockData","ORDER")

这是因为如果直接进行查询，数据将会返回到终端，过大的数据量会导致客户端的堆栈溢出。

10.2 解决方案

t = select * from loadTable("dfs://StockData", "ORDER")

将查询结果赋值给一个变量，能够正常看到结果：

总结

本文介绍了使用 DolphinDB 进行编程时，最容易忽略的 10 个细节，涵盖了分区冲突、数据类型处理、元编程、分区剪枝、SQL 查询等多个方面。编程时忽略这些细节，可能导致程序运行报错或运算结果不符合预期。若提前了解这些细节，则可以提升脚本的质量，提高编程效率。

了解更多关于 DolphinDB 的编程细节，请参考阅读：编程教程。

DolphinDB智臾科技

关注

7
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
DolphinDB 编程进阶：掌握这十个细节，让你的代码更出色

今天和大家分享的内容是：使用 DolphinDB 编程时，十个常被忽略但至关重要的细节。本文涵盖了元编程技巧、数据类型处理技巧以及分区策略优化等方面，旨在帮助大家有效避免分区冲突、计算错误、性能瓶颈、堆栈溢出等问题，从而在数据处理的征途上更加游刃有余。
复制链接

扫一扫