基于Druid的HiveSQL血缘解析

最新推荐文章于 2024-05-15 09:42:58 发布

三季人 G

最新推荐文章于 2024-05-15 09:42:58 发布

阅读量1.6k

点赞数

文章标签： sql 数据库

原文链接：https://blog.csdn.net/master_hunter/article/details/127637747

版权

2. Create table... as select..

2.插入

1.标准语法

2.高级语法(Multiple Inserts)

3.高级语法(Dynamic Partition Inserts)

点关注，防走丢，如有纰漏之处，请留言指教，非常感谢

前言

之前开发的基于Python语言的sqlparse库开发的SQL语言通用解析工具目前已经开源至github，大家如果有需要可以去看：https://github.com/Fanstuck/SQLblood-relationship。我说过做Python的SQL解析算是一个对AST解析树的深入理解。没想到的是基于sqlparse的工具做出sql解析是可行的，这涉及到较多的递归和判断，但是我写的程序应对的SQL语句应该是不多的1，很多条SQL语句都没有测试完还是有一定的风险的。如果大家有想要解析的SQL可以私信发我，将免费提供SQL解析，如果程序功能和兼容性足够完善的话，将再出一篇文章把所有的解析过程详解。

本篇文章主要讲述的是直接利用Druid的功能直接实现血缘解析，就不再过多的去解析其底层AST树的解析了，大致的做法都是相同的。Druid用于解析sql的工具是本身自带，其主要是数据库连接池实现。

一、Druid简介

Druid 是阿里巴巴开源平台上一个数据库连接池实现，结合了 C3P0、DBCP 等 DB 池的优点，同时加入了日志监控。Druid连接池为监控而生，内置强大的监控功能，监控特性不影响性能。功能强大，能防SQL注入，内置Loging能诊断Hack应用行为。也正是因为有监控SQL注入因此必须要对上交的SQL任务进行解析，获取关键字段。

首先SQL本质上是一种数据处理的描述语言,是一种描述语言的规范。如果我们用简单字符串处理，使用字符串查找或者正则表达式来提取SQL中的字段，对于简单的SQL可以这样实现，但SQL规范还有复杂的开闭括号以及嵌套查询，复杂SQL几乎不可能通过字符串匹配来实现。因此我们需要将SQL解析。Druid内置的SQL Parser, SQL Parser是Druid的一个重要组成部分，Druid内置使用SQL Parser来实现防御SQL注入（WallFilter）、合并统计没有参数化的SQL(StatFilter的mergeSql)、SQL格式化、分库分表。而且官方强调：和Antlr生成的SQL有很大不同的是，Druid SQL Parser性能非常好，可以用于生产环境直接对SQL进行分析处理。

通过阅览源码会发现基本主流数据库的SQL语句都支持解析：

数据库	DML	DDL
odps	完全支持	完全支持
mysql	完全支持	完全支持
postgresql	完全支持	完全支持
oracle	支持大部分	支持大部分
sql server	支持常用的	支持常用的ddl
db2	支持常用的	支持常用的ddl
hive	支持常用的	支持常用的ddl

每个数据库都有自己对应的AST树解析、parser语法解析和visitor模式。个别几个数据库的解析较为特殊，比如Hive、mysql等带额外带有其他的功能。

二、Druid SQL Parser

Druid SQL Parser源码中主要的构成框架包括：Parser、AST和Visitor。

Parser

根据之前的研究我们清楚语法分析器(Parser)：将上一步得到的Token流转换为语法定义的树结构。对于HiveSQL的解析来讲，对于其定义的grammar语法文件来看，其各个不同的语法解析文件就是其SQL执行过程的支撑，自然需要先解析获取其对应的语法结构：

From的解析文件可以说是通用的，因此在parser并没有看到关于Hive的From文件，都统一由全局SQLParser获取。

这些特定数据库的类都全部由通用parser继承而来，添加新方法。

AST

AST是abstract syntax tree的缩写，也就是抽象语法树。和所有的Parser一样，Druid Parser会生成一个抽象语法树。

之所以说语法是“抽象”的，是因为这里的语法并不会表示出真实语法中出现的每个细节。比如，嵌套括号被隐含在树的结构中，并没有以节点的形式呈现；而类似于if-condition-then这样的条件跳转语句，可以使用带有两个分支的节点来表示。

和抽象语法树相对的是具体语法树。一般的，在源代码的翻译和编译过程中，语法分析器创建出分析树。一旦AST被创建出来，在后续的处理过程中，比如语义分析阶段，会添加一些信息。


    
    
      
      
       
       
      
      
      
      
       
       
        
        String sql_format=formatMysql(sql_4);
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        final 
        
        DbType 
        
        dbType 
        
        = JdbcConstants.HIVE;
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        // SQLStatement就是AST
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        List<SQLStatement> stmtList = SQLUtils.parseStatements(sql_4, dbType);
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        System.out.println(stmtList);

在Druid中，AST节点类型主要包括SQLObject、SQLExpr、SQLStatement三种抽象类型。

官方文档解释的更加清楚：Druid_SQL_AST


    
    
      
      
       
       
      
      
      
      
       
       
        
        package com.alibaba.druid.sql.ast.expr;
       
       
      
      

      
      
       
       
      
      
      
      
       
        
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        // SQLName是一种的SQLExpr的Expr，包括SQLIdentifierExpr、SQLPropertyExpr等
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        public 
        
        interface 
        
        SQLName 
        
        extends 
        
        SQLExpr {}
       
       
      
      

      
      
       
       
      
      
      
      
       
        
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        // 例如 ID = 3 这里的ID是一个SQLIdentifierExpr
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        class 
        
        SQLIdentifierExpr 
        
        implements 
        
        SQLExpr, SQLName {
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
            String name;
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        } 
       
       
      
      

      
      
       
       
      
      
      
      
       
        
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        // 例如 A.ID = 3 这里的A.ID是一个SQLPropertyExpr
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        class 
        
        SQLPropertyExpr 
        
        implements 
        
        SQLExpr, SQLName {
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
            SQLExpr owner;
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
            String name;
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        } 
       
       
      
      

      
      
       
       
      
      
      
      
       
        
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        // 例如 ID = 3 这是一个SQLBinaryOpExpr
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        // left是ID (SQLIdentifierExpr)
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        // right是3 (SQLIntegerExpr)
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        class 
        
        SQLBinaryOpExpr 
        
        implements 
        
        SQLExpr {
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
            SQLExpr left;
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
            SQLExpr right;
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
            SQLBinaryOperator operator;
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        }
       
       
      
      

      
      
       
       
      
      
      
      
       
        
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        // 例如 select * from where id = ?，这里的?是一个SQLVariantRefExpr，name是'?'
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        class 
        
        SQLVariantRefExpr 
        
        extends 
        
        SQLExprImpl { 
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
            String name;
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        }
       
       
      
      

      
      
       
       
      
      
      
      
       
        
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        // 例如 ID = 3 这里的3是一个SQLIntegerExpr
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        public 
        
        class 
        
        SQLIntegerExpr 
        
        extends 
        
        SQLNumericLiteralExpr 
        
        implements 
        
        SQLValuableExpr { 
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
            Number number;
       
       
      
      

      
      
       
       
      
      
      
      
       
        
       
       
      
      

      
      
       
       
      
      
      
      
       
           
        
        // 所有实现了SQLValuableExpr接口的SQLExpr都可以直接调用这个方法求值
       
       
      
      

      
      
       
       
      
      
      
      
       
           
        
        @Override
       
       
      
      

      
      
       
       
      
      
      
      
       
           
        
        public Object 
        
        getValue
        
        () {
       
       
      
      

      
      
       
       
      
      
      
      
       
               
        
        return 
        
        this.number;
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
            }
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        }
       
       
      
      

      
      
       
       
      
      
      
      
       
        
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        // 例如 NAME = 'jobs' 这里的'jobs'是一个SQLCharExpr
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        public 
        
        class 
        
        SQLCharExpr 
        
        extends 
        
        SQLTextLiteralExpr 
        
        implements 
        
        SQLValuableExpr{
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
            String text;
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        }

最常用的Statement当然是SELECT/UPDATE/DELETE/INSERT，他们分别是


    
    
      
      
       
       
      
      
      
      
       
       
        
        package com.alibaba.druid.sql.ast.statement;
       
       
      
      

      
      
       
       
      
      
      
      
       
        
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        class 
        
        SQLSelectStatement 
        
        implements 
        
        SQLStatement {
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
            SQLSelect select;
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        }
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        class 
        
        SQLUpdateStatement 
        
        implements 
        
        SQLStatement {
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
            SQLExprTableSource tableSource;
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
             List<SQLUpdateSetItem> items;
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
             SQLExpr where;
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        }
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        class 
        
        SQLDeleteStatement 
        
        implements 
        
        SQLStatement {
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
            SQLTableSource tableSource; 
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
            SQLExpr where;
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        }
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        class 
        
        SQLInsertStatement 
        
        implements 
        
        SQLStatement {
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
            SQLExprTableSource tableSource;
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
            List<SQLExpr> columns;
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
            SQLSelect query;
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        }

Visitor

Visitor是遍历AST的手段，是处理AST最方便的模式，Visitor是一个接口。Druid内置提供了如下Visitor:

OutputVisitor用来把AST输出为字符串
WallVisitor 来分析SQL语意来防御SQL注入攻击
ParameterizedOutputVisitor用来合并未参数化的SQL进行统计
EvalVisitor 用来对SQL表达式求值
ExportParameterVisitor用来提取SQL中的变量参数
SchemaStatVisitor 用来统计SQL中使用的表、字段、过滤条件、排序表达式、分组表达式
SQL格式化 Druid内置了基于语义的SQL格式化功能

Druid提供了多种默认实现的Visitor，可以满足基本需求，如果默认提供的不满足需求，可自行实现自定义Visitor。也就是利用该功能我们能够快速获取表与字段。

更多详细功能参阅官方对于Visitor的文档：https://github.com/Fanstuck/SQLblood-relationship