好久没有写文章了,今天快速给大家分享一个删除Kusto表中重复数据的方法,非常惊艳。
事情是这样的,我在检查一张Kusto表时发现有些异常情况,就是某些月份的数据量似乎比其他的月份明显多,而且正好多一倍左右。这就引起了怀疑,是不是在导入过程中出现过什么异常呢?我该如何知道这些数据分别是什么时候导入的呢?
Kusto 提供了一个很好的函数,`ingestion_time` 来提供这方面的信息。
mytable
| summarize count() by ingestion_time()
它的返回结果如下
然后我能发现某些可能重复导入的时间点,然后就可以单独删除在这个时间点导入的数据了。
.delete table mytable records <|
mytable|
where ingestion_time() == datetime(2023-09-19T08:21:32.0374171Z)
就这么简单,顺便说一下,自年初发布第一版Kusto 宝典(https://aka.ms/kustobible) 以来,目前有超过5000人阅读了这本免费的电子书。Kusto 还有很多奇妙的用法等待发掘,也许什么时候我又出了第二版,谁知道呢