大数据中的批量删除

最新推荐文章于 2024-08-01 10:31:20 发布

dijkstral

最新推荐文章于 2024-08-01 10:31:20 发布

阅读量3k

点赞数

分类专栏： # Mysql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/l153097889/article/details/66475403

版权

Mysql 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

oken表中目前有400w条数据，且以每天十几万的数据继续增长。需要定期将其中过期的数据取消掉，仅保留最新的万计以内的数据；

token表有两个字段：id（long ,自增），update_time（timestamp，更新时间），其中在id上建立了索引；

一次性删除掉400w条数据显然不靠谱，会发现删除失败，因为lock wait timeout exceed错误；

因此最后分批删除，每次删除1w条，分多次删除；

此处有两种方法可以实现：

第一种，在分批批量删除中可以使用如下的limit方法：

delete from token where id > 0 order by id asc limit 10000;

第二种，取出最小的id和最大的id，每次自最小的id开始，每次增加10000，进行删除；

delete from token where id <maxId;

以上的两种方法其实都可以，可能会对第一种的limit的使用有疑问。

limit 有两个参数，offset length。对于数据量大的时候，limit的性能急剧下降；

举一个例子，如果一个表person有如下字段id(long ,auto-increase,primary key),name(varchar),age(int)，表中有1000w数据；

如下的语句肯定不行：select * from person where id > 10 limit 100000,100;

此处，mysql首先会扫描100010条数据，然后取出最后的10条数据返回，故性能很差；

但是可以变通为 select * from person where id in (select id from person where id >10 limit 100000,10 ),此处子查询中使用了id的索引，可以大大降低查询时间；

同样对于上面的批量删除中，id为主键，采用limit批量删除是没有问题的。

进行测试，删除100w条数据，第一种方法用时3.227s，第二种用时3.524s，相差不算太大。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。