redis删除数据

最新推荐文章于 2023-07-15 15:32:51 发布

woibu

最新推荐文章于 2023-07-15 15:32:51 发布

阅读量2.9w

点赞数

reference：https://my.oschina.net/limingluzhu/blog/484506

http://weipengfei.blog.51cto.com/1511707/1215042

由于需求的更改，之前做的一个项目需要对redis中存储的数据格式进行修改。为防止新包发布后，老数据会导致新数据无法插入。所以，必须在发布前删除掉所有的老数据。当前redis是一个公用的集群，里面涉及好几个业务。那么问题来了，如何删除大量的老数据（目前库中的key总数为1200w）,而又不影响其他业务的使用。

常见批量删除redis数据的方法：

如果待删除数据的key是已知的，可以使用redis-cli的del命令 /usr/local/redis/bin/redis-cli del key 或者也可以使用其他高级语言对应的redis包或库。如java下的jedis，python下的redis库
```
java:   jdeis.del(key)
python: redis.delete(key)
```
如果待删除数据的key是未知的，只知道满足特定模式的key。这种情况下，就需要使用redis的keys 命令找出满足特定模式的key
```
找到满足前缀是video的所有key
/usr/local/redis/bin/redis-cli keys video_*
```
可以使用linux的xargs来完成批量删除 /usr/local/redis/bin/redis-cli keys video* | xargs /usr/local/redis/bin/redis-cli del
如果待删除的数据是库中所有的数据，可以使用flushdb清除整个库 /usr/local/redis/bin/redis-cli flushdb

几种方法的说明

第一种方法需要明确知道特定的key
使用keys命令，当库中数据量过大，keys命令会阻塞redis的其他所有请求。无疑，这种方式对公用redis集群是不可取的。当然，具体还得考虑业务的需要。实在不行，也可以把删除脚本放到业务访问量比较小的时间点上执行。
使用flushdb这种方式，会对整个库中的数据进行清理。

我的解决方法

线上redis集群使用的是matser-slave的结构。所以可以把阻塞请求的keys命令放到slave节点上执行，找出所有满足特定前缀的key。然后使用shell脚本或高级语言在master节点上删除数据。

#获取前缀是video,album,actor所有的key,并把这些key追加导出到文件/data/keys.txt中
#!/bin/bash
keys=('video' 'album' 'actor');
host='localhost';
port='6378';
for key in ${keys[@]};
do
  cmd="/usr/local/redis/bin/redis-cli -h ${host} -p ${port} keys gal.video.${key}*  >> /data/keys.txt";
  echo ${cmd}; 
  eval ${cmd};
done;

# 根据前面生成的key，删除数据
#!/bin/bash
host='localhost';
port='6378';
file="/data/keys.txt";
i=0;
cat ${file} | while read key;
do
  let i=i+1;
  cmd="/usr/local/redis/bin/redis-cli -h ${host} -p ${port} del ${key}";
  echo "line:"${i}",cmd:"${cmd};
  eval ${cmd}; 
done;

脚本2由于是逐条发送del命令，执行效率相当的低。测试中大概是1小时删除120w条数据。1200w条需要删除10小时！！！考虑到每次发送请求的耗时，想到可以使用redis的pipeline来实现批量提交。

__author__ = 'litao'
from redis import Redis
host="127.0.0.1"
port=6379
db=0
r =Redis(host,port,db)
pl=r.pipeline()
per_pipe_size=10000
count=0
file = open("/data/keys.txt")
print "start del all keys in "+file.name
while 1:
    lines = file.readlines(10000)
    if not lines:
        break
    for key in lines:
        key=key.strip('\n')
        pl.delete(key)
        count=count+1
        if(count==per_pipe_size):
            count=0
            pl.execute()
pl.execute()
file.close()
print 'finish del all keys'

改进后的脚本2在线上执行时间仅需要2min左右！！

Redis本身是一个cs模式的tcp server, client可以通过一个socket连续发起多个请求命令。每个请求命令发出后client通常会阻塞并等待redis服务端处理，redis服务端处理完后将结果返回给client。

redis的pipeline(管道)功能在命令行中没有，但redis是支持pipeline的，而且在各个语言版的client中都有相应的实现。由于网络开销延迟，即算redis server端有很强的处理能力，也由于收到的client消息少，而造成吞吐量小。当client 使用pipelining 发送命令时，redis server必须部分请求放到队列中（使用内存）执行完毕后一次性发送结果；如果发送的命名很多的话，建议对返回的结果加标签，当然这也会增加使用的内存；

Pipeline在某些场景下非常有用，比如有多个command需要被“及时的”提交，而且他们对相应结果没有互相依赖，而且对结果响应也无需立即获得，那么pipeline就可以充当这种“批处理”的工具；而且在一定程度上，可以较大的提升性能,性能提升的原因主要是TCP链接中较少了“交互往返”的时间。不过在编码时请注意，pipeline期间将“独占”链接，此期间将不能进行非“管道”类型的其他操作，直到pipeline关闭；如果你的pipeline的指令集很庞大，为了不干扰链接中的其他操作，你可以为pipeline操作新建Client链接，让pipeline和其他正常操作分离在2个client中。不过pipeline事实上所能容忍的操作个数，和socket-output缓冲区大小/返回结果的数据尺寸都有很大的关系；同时也意味着每个redis-server同时所能支撑的pipeline链接的个数，也是有限的，这将受限于server的物理内存或网络接口的缓冲能力。

python 测试代码：

同时提交10000个command：

 
        #!/usr/bin/python2 
       
        import  
        redis 
       
        import  
        time 
       
        def  
        without_pipeline(): 
       
        r 
        = 
        redis.Redis() 
       
        for  
        i  
        in  
        range 
        ( 
        10000 
        ): 
       
        r.ping() 
       
        return 
       
        def  
        with_pipeline(): 
       
        r 
        = 
        redis.Redis() 
       
        pipeline 
        = 
        r.pipeline() 
       
        for  
        i  
        in  
        range 
        ( 
        10000 
        ): 
       
        pipeline.ping() 
       
        pipeline.execute() 
       
        return 
       
        def  
        bench(desc): 
       
        start 
        = 
        time.clock() 
       
        desc() 
       
        stop 
        = 
        time.clock() 
       
        diff 
        = 
        stop 
        - 
        start 
       
        print  
        "%s has token %s"  
        %  
        (desc.func_name, 
        str 
        (diff)) 
       
        if  
        __name__ 
        = 
        = 
        '__main__' 
        : 
       
        bench(without_pipeline) 
       
        bench(with_pipeline)