该记录不涉及任何业务信息,仅作学习记录,代码在最下面。
需求:要解析用户的SQL,从语法上获取SQL的输出字段,这样好和后面的入库字段做映射。
本来方案是,直接用Durid里面自带得HiveSchemaStatVisitor,进行SQL遍历,就可以获取所需的Select字段。测试结果发现不是这样,原生的解析拿不到子查询的明细字段,也拿不到"*"对应的字段,如下图。
这个是一个测试用例:
CREATE TABLE `tb_a` (
`id` varchar(64) COLLATE utf8_bin NOT NULL,
`name` varchar(64) DEFAULT NULL,
`phone` varchar(64) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin;
CREATE TABLE `tb_c` (
`id` varchar(64) COLLATE utf8_bin NOT NULL,
`address` varchar(64) DEFAULT NULL,
`cost` varchar(64) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin;
CREATE TABLE `tb_a` (
`id` varchar(64) COLLATE utf8_bin NOT NULL,
`level` varchar(64) DEFAULT NULL,
`email` varchar(64) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin;
SELECT
a.*,
b.*,
tb_c.email
FROM
tb_a a
JOIN (
SELECT id as id2, sum( cost ) AS sum FROM tb_b GROUP BY id ) b
ON tb_a.id = tb_b
JOIN tb_c
ON tb_c.id = tb_a.id
#应该要输出
#tb_a.id或者a.id,以及别名id
#tb_a.name或者a.name, 以及别名name
#tb_a.phone或者a.phone, 以及别名phone
#b.id, 以及别名id
#b.sum(cost), 以及别名sum
#tb_c.email,以及别名email
所以,又双叒叕是头秃的一天,老老实实写递归(写链表也得,怎么都得的),实现这个逻辑,并且配合元数据服务,获取相关实体表的字段,就能做到:
1、将“*”对应的字段展现
2、将子查询内的字段展现(最终是输出的字段),如果最终不输出,也不考虑这些字段。
3、将各类计算的字段和其别名展现。
下图是和上图用的同一句SQL,测试输出的结果。
代码还是全部放出来,直接运行就可以了,有些冗余。如果有修改或更好的方式,欢迎沟通。
:D
package com.dapp;
import com.alibaba.druid.DbType;
import com.alibaba.druid.sql.SQLUtils;
import com.alibaba.druid.sql.ast.SQLExpr;
import com.alibaba.druid.sql.ast.SQLObject;
import com.alibaba.druid.sql.ast.SQLStatement;
import com.alibaba.druid.sql.ast.expr.SQLPropertyExpr;
import com.alibaba.druid.sql.ast.statement.*;
import java.util.*;
/**
* Created by LH on 2022/9/2 17:43
*/
public class ParserDemo{
//原始表字段
public static HashMap<String, List<String>> originalTables = new HashMap<String, Lis