python解析sql语句,基于python分析业务SQL常用查询字段

最新推荐文章于 2024-06-04 21:13:34 发布

weixin_39922642

最新推荐文章于 2024-06-04 21:13:34 发布

阅读量930

点赞数

文章标签： python解析sql语句

本文介绍了如何使用Python解析SQL语句，收集特定cube在某时间段内的所有查询，以理解业务常用字段。通过influxdb导出SQL，利用正则表达式提取select和from之间的字段，统计并排序，辅助cube的优化和设计。测试示例展示了不同类型的SQL查询，分析结果揭示了查询模式，如' '*的数量反映了明细查询的频率，sid字段的出现频率提示统一表名的必要性，而class1和class2的对等性建议作为联合维度组。

摘要由CSDN通过智能技术生成

背景

由于业务灵活的查询需求，会演变成各种各样的SQL语句，但是对于目前的SQL语句并没有做到分文别类的归纳整理。不能很好的把握业务脉络，理解业务需求。导致cube频繁修改，加大cube开发人员的工作量。从而导致了cube使用的体验欠佳。基于以上的业务背景，所以想收集到某段时间业务查询某个cube的所有SQL,进行分析整理，统计排序，直观且具体的了解到业务常用字段

工具

python+excel+influxdb

实现逻辑

收集某段时间查询某个cube的所有SQL

目前比较快速的方法就是通过KM自带的influxdb实现数据的导出，可以规定导出某个cube的某段时间的查询SQL.保存到一个文件里。不限文件格式，获取命令

influxdb -host ip -port port -database database -execute “SQL content” -format ‘format’

使用脚本读取

解析规则：只需要截取出select from之间的字段，当然这个解析规则同样适用于带子查询的SQL, 为什么没有 where 和group by的字段？因为在绝大数情况下，过滤和分组字段都包含到select 和from之间。不解析别名，因为不同的查询会对应不同的别名。直接定位到表名+列名，这样对cube优化会起到一个参考指，指导哪些是常用维度，在下一个cube版本迭代开发，或者修改时，对于聚合组中的联合维度和rowkey设计的选择给到数据支持。

解些逻辑如下：

import re

import os

import csv

import operato

最低0.47元/天解锁文章

weixin_39922642

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python解析sql语句,基于python分析业务SQL常用查询字段

背景由于业务灵活的查询需求，会演变成各种各样的SQL语句，但是对于目前的SQL语句并没有做到分文别类的归纳整理。不能很好的把握业务脉络，理解业务需求。导致cube频繁修改，加大cube开发人员的工作量。从而导致了cube使用的体验欠佳。基于以上的业务背景，所以想收集到某段时间业务查询某个cube的所有SQL,进行分析整理，统计排序，直观且具体的了解到业务常用字段工具python+excel+inf...
复制链接

扫一扫