自定义CLOB字段连接函数处理Oracle查询

项目里面有个查询语句,在 A schema 上跑出来的结果是300+万条数据,直接使用 JDBCTemplate.query() + RowMapper的方式逐条处理,速度相当慢。数据大致如下:


处理的逻辑是:按照PERSON_ID,VISIT_OCCURRENCE_ID,CATEGORY 分组,用逗号分隔 CONCEPT_ID保存到一个CLOB 字段,同理对待 EVENT_ID。这些在java层处理速度慢,我估计应该是 round-trip 太多导致的时间非常长吧。

后来换一种思路,就是将查询出来的数据插入到一个临时表,然后通过数据库的 GROUP BY 子句实现,由于有些 PERSON的记录太多,导致 LISTAGG 拼接 CONCEPT_ID 的串都超过了 4000 的限制,不得不使用 XMLAGG。就单个用户 ID:138 ,他的SQL如下(T_CLINICAL_SUM就是前面说的临时表):

SELECT *
FROM
  (SELECT X.*,
    ROW_NUMBER() over (PARTITION BY X.person_id ORDER BY ROWNUM) ORDINAL
  FROM
    (SELECT PERSON_ID,
      VISIT_OCCURRENCE_ID,
      CATEGORY,
      RTRIM(XMLAGG(XMLELEMENT(E, CONCEPT_ID, ',')).EXTRACT('//text()').GetClobVal(),',') CONCEPTIDS,
      RTRIM(XMLAGG(XMLELEMENT(E, CONCEPT_ID
      || '_'
      || EVENT_ID, ',')).EXTRACT('//text()').GetClobVal(),',') EVENTIDS
    FROM T_CLINICAL_SUM
    GROUP BY PERSON_ID,
      VISIT_OCCURRENCE_ID,
      CATEGORY
    ) X
  ) Y
WHERE Y.ORDINAL <= 20

处理结果如下:


这果然快了很多,三五分钟就能出来。

后来切换到另一个 B 的 SCHEMA, 问题来了,这次查询出来的记录有近 900w 条数据,使用同样的程序跑了两个多小时没结果不说,数据库直接报内存不够了:


也许是 XMLAGG 内部不断地构造XML 结构,比较耗内存。Google 了下,提出了定义一个 IS TABLE OF的 TYPE 类型,和自定义一个函数,把 GROUP BY 后的字段连接成一个 CLOB 字段返回。

TYPE 的定义:

create or replace TYPE t_clob_tab AS TABLE OF VARCHAR2(4000);

自定义函数为:

create or replace FUNCTION tab_to_string (p_clob_tab  IN  t_clob_tab,
                                          p_delimiter     IN  VARCHAR2 DEFAULT ',') RETURN clob IS
  l_string     clob;
BEGIN
  FOR i IN p_clob_tab.FIRST .. p_clob_tab.LAST LOOP
    IF i != p_clob_tab.FIRST THEN
      l_string := l_string || p_delimiter;
    END IF;
    l_string := l_string || p_clob_tab(i);
  END LOOP;
  RETURN l_string;
END tab_to_string;

应用 TYPE 和 自定义函数后的 SQL :

SELECT * FROM
  (SELECT X.*,
    ROW_NUMBER() over (PARTITION BY X.person_id ORDER BY ROWNUM) ORDINAL
  FROM
    (SELECT PERSON_ID,
      VISIT_OCCURRENCE_ID,
      CATEGORY,
      tab_to_string(CAST(COLLECT(TO_CHAR(CONCEPT_ID)) AS t_clob_tab)) AS CONCEPTIDS,
      tab_to_string(CAST(COLLECT(CONCEPT_ID || '_' || EVENT_ID) AS t_clob_tab)) AS EVENTIDS
    FROM T_CLINICAL_SUM
    GROUP BY PERSON_ID,
      VISIT_OCCURRENCE_ID,
      CATEGORY
    ) X
  ) Y
WHERE Y.ORDINAL <= 20

这个 SQL 执行后,近 900w 的数据跑出来在 20 分钟的样子,还是能接受的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Oracle查询含有CLOB字段慢的问题主要原因是CLOB字段的特性决定了其存储方式和查询性能。CLOB字段存储的是大文本数据,其在数据库中以存放在不同的页中,而非在表中直接存储,这导致在查询时需要从多个页中读取数据,从而增加了查询的时间。 另一个可能的原因是查询语句中对CLOB字段进行了全表扫描或者模糊查询的操作。全表扫描将导致查询所有的数据行,而模糊查询则需要对每一条记录进行匹配,这些操作都会增加查询的时间。 解决这个问题的方法有以下几种: 1. 创建适当的索引:对于经常查询CLOB字段,可以创建全文索引或者函数索引,这样可以加快查询速度。 2. 使用子查询:如果查询结果中不需要包含CLOB字段,可以将CLOB字段查询放置在子查询中,然后在主查询中引用子查询的结果。这样可以减少查询CLOB字段的开销。 3. 优化查询语句:尽量避免使用全表扫描和模糊查询等低效操作,可以根据具体需求优化查询语句,减少查询CLOB字段的次数和范围。 4. 使用分页查询:如果查询结果中仅需要部分记录,可以使用分页查询的方式,每次只查询指定页的记录,这样可以减少读取CLOB字段的数据量。 最后,如果以上方法仍然不能解决查询慢的问题,还可以考虑增加服务器的硬件资源,如增加内存或者更快的存储设备,以提高查询性能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值