关于大数据表清洗的一般操作方法
1, 备份数据(极端重要)
2, 分别统计要删除数据和要保留的数据量。
Ps按警报类型统计语句
select event_id,EVENTCATEGORY,count(1) as 数量 from t_auditinfo group by event_id,EVENTCATEGORY
按日期月统计
select substring(CONVERT(varchar(100), [timestamp], 23),1,7)
,count(1) as 数量 from t_auditinfo group by substring(CONVERT(varchar(100), [timestamp], 23),1,7)
以上可以要处理单位前期自己运行,节约时间。
3, 如果删除的数据量远大于要保留的数据量采用建立新表把老表的数据导出到新表的方法。反之则直接删除。
删除方法语句。
declare @rc int
set @rc=10000
while(@rc=10000)
begin
delete top(10000) t_auditinfo where 条件
set @rc=@@ROWCOUNT
end
导出语句
set identity_insert temptable on
insert into temptable(, ) select * from oldtable where 条件
再次提醒要记得备份数据。