我想对一些Teradata数据库表进行一些数据分析,并很快意识到表的大小(数百万条记录)直接从DB表到Pandas dataframe并不是最佳选择。在
我提出了一个SQL查询,when run将给我一个子集的查询需要执行,以获得我要寻找的结果(distinct,max,min,null count等等),我想把它嵌入到Python脚本中。在
查询如下所示:SELECT 'SELECT ''' || TRIM(COLUMNNAME)
|| ''', COUNT(DISTINCT ' || COLUMNNAME || ') AS DISTINCT_COUNT,'
|| ' COUNT(1) - COUNT( ' || COLUMNNAME || ') AS NULL_COUNT,'
|| ' MAX( ' || COLUMNNAME || ') AS MAX_COL_VALUE,'
|| ' MIN( ' || COLUMNNAME || ') AS MIN_COL_VALUE'
|| ' FROM ' || TRIM(DATABASENAME) || '.' || TRIM(TABLENAME) || ';'
FROM DBC.COLUMNSV
WHERE DATABASENAME = 'XYZ'
AND TABLENAME = 'ABC';
执行该查询的结果是一组单独的查询(对于我当前正在测试的表,大约有30个查询)。在
我用以下方法执行了上述操作。。。。在
^{pr2}$<