基于 Codis 的冷热缓存优化

背景

  1. 热数据运维挑战:缓存存储分别有memcache,redis,redis cluster,codis等缓存对维护和运维带来很大的挑战。

  2. 冷数据成本挑战: 部分单服务内存超过500G根据三地两中心三副本部署共需要1.5T内存,未来随着用户增加内存不断的增加。

方案选择


  1. 针对热数据运维挑战:统一为codis方面集群的扩缩,自动负载,数据迁移和监控等

v2-8fbf0bfd0bbfa4c2cf30ff870c16a5f7_b.jpg

  1. 冷数据成本挑战:兼容codis协议使用磁盘存储kvrocks替换内存存储redis

v2-848cd38a4a73f2ae5ec4bd8c07a1e5c4_b.jpg

性能及问题


codis-redis内存存储问题

  1. 不支持多网卡造成codis-proxy添加集群auth认证失败

  2. 缺少监控耗时:仅仅有cod
    is-redis实例耗时没有codis-proxy监控耗时,造成业务反馈超时codis本身没有超时

  3. 懒惰删除不及时造成集群空间浪费比较大

codis-kvrocks磁盘存储问题

  1. 不支持codis协议,不支持水平扩缩容,不支持读写分离

  2. 读耗时较高

解决方案


codis-redis内存存储问题

1: 针对多网卡仅获取具有广播地址ip:

var broadcaseAddrs []string

interfaces, err := net.Interfaces()

if err != nil {

log.WarnErrorf(err, “Can not get local interface info”)

}

for _, inter := range interfaces {

flags := inter.Flags.String()

if strings.Contains(flags, “up”) && strings.Contains(flags, “broadcast”) {

addrs,err := inter.Addrs()

if err!=nil {

log.WarnErrorf( err,“Can not get inter.Addrs”)

}else {

for _,value :=range addrs {

broadcaseAddrs = append (broadcaseAddrs,value.String())

}

log.Infof("broadcaseAddrs %s ", broadcaseAddrs)

}

}

}

2: 针对耗时无监控添加耗时超时100ms日志(请求ip,redis ip,redis命令,命令长度等维度),Filebeat采集日志针对耗时高请求进行监控报警:

func (s *Session) loopWriter(tasks *RequestChan) (err error) {

p := s.Conn.FlushEncoder()

p.MaxInterval = time.Millisecond

p.MaxBuffered = maxPipelineLen / 2

return tasks.PopFrontAll(func(r *Request) error {

resp, err := s.handleResponse®

if err != nil {

resp = redis.NewErrorf(“ERR loopWriter handle response, %s”, err)

if s.Conn!=nil {

log.Errorf(“ERR loopWriter handle response err=%s,remotip=%s”, err.Error() ,s.Conn.RemoteAddr())

}else{

log.Errorf(“ERR loopWriter handle response err=%s”, err.Error())

}

return s.incrOpFails(r, err)

}

fflush := tasks.IsEmpty()

if err := p.Flush(fflush); err != nil {

return s.incrOpFails(r, err)

} else {

s.incrOpStats(r, resp.Type)

cost:= time.Now().UnixNano() - r.UnixNano

if s.config.SessionSlowlogTime > 0 && cost > s.config.SessionSlowlogTime*1000000 {

log.Warnf(“cmd=%s, resType=%s,resLen=%d,cost=%d,forward addr=%s,req key=%s, reqip=%s”,r.OpStr, r.Resp.Type.String(),len(r.Resp.Value),cost/1000000,r.addr,r.key,s.Conn.RemoteAddr())

}

}

if fflush {

s.flushOpStats(false)

}

return nil

})

}

3: 针对懒惰删除机制慢,加大低峰期删除key个数和频率,上线后删除过期的key加大10倍,节省内存资源。

func (s *Session) loopWriter(tasks *RequestChan) (err error) {

p := s.Conn.FlushEncoder()

p.MaxInterval = time.Millisecond

p.MaxBuffered = maxPipelineLen / 2

return tasks.PopFrontAll(func(r *Request) error {

resp, err := s.handleResponse®

if err != nil {

resp = redis.NewErrorf(“ERR loopWriter handle response, %s”, err)

if s.Conn!=nil {

log.Errorf(“ERR loopWriter handle response err=%s,remotip=%s”, err.Error() ,s.Conn.RemoteAddr())

}else{

log.Errorf(“ERR loopWriter handle response err=%s”, err.Error())

}

return s.incrOpFails(r, err)

}

fflush := tasks.IsEmpty()

if err := p.Flush(fflush); err != nil {

return s.incrOpFails(r, err)

} else {

s.incrOpStats(r, resp.Type)

cost:= time.Now().UnixNano() - r.UnixNano

if s.config.SessionSlowlogTime > 0 && cost > s.config.SessionSlowlogTime*1000000 {

log.Warnf(“cmd=%s, resType=%s,resLen=%d,cost=%d,forward addr=%s,req key=%s, reqip=%s”,r.OpStr, r.Resp.Type.String(),len(r.Resp.Value),cost/1000000,r.addr,r.key,s.Conn.RemoteAddr())

}

}

if fflush {

s.flushOpStats(false)

}

return nil

})

}

codis-kvrocks

性能数据(第三方数据显示qps可以和redis媲美,耗时较高)

v2-cbfd93935a7ed7e521273558f5aa1f91_b.jpg

整体架构

v2-4b6c23c94588ae273193ae7e5ea875cd_b.jpg

问题

  1. 针对不支持codis增加对codis slot命令支持:

ADD_CMD(“slotsscan”, CommandSlotsScan),

ADD_CMD(“slotsdel”, CommandSlotsDel),

ADD_CMD(“slotsmgrtslot”, CommandSlotsMgrtSlot),

ADD_CMD(“slotsmgrtone”, CommandSlotsMgrtOne),

ADD_CMD(“slotsmgrttagslot”, CommandSlotsMgrtTagSlot),

ADD_CMD(“slotsmgrttagone”, CommandSlotsMgrtTagOne),

ADD_CMD(“slotsrestore”, CommandSlotsRestore),

ADD_CMD(“slotshashkey”, CommandSlotsHashKey),

ADD_CMD(“slotscheck”, CommandSlotsCheck),

ADD_CMD(“slotsmgrtslot-async”, CommandSlotsMgrtSlotAsync),

ADD_CMD(“slotsmgrttagslot-async”, CommandSlotsMgrtTagSlotAsync),

ADD_CMD(“slotsmgrt-exec-wrapper”, CommandSlotsMgrtExecWrapper),

ADD_CMD(“slotsmgrt-async-status”, CommandSlotsMgrtAsyncStatus),

ADD_CMD(“slotsmgrt-async-cancel”, CommandSlotsMgrtAsyncCancel),

如果codis扩容实例需要迁移slot中keys代码如下:

void SlotsMgrtSenderThread::loop() {

Redis::Slot slot_db(storage_);

while (!IsStopped()) {

auto s = Util::SockConnect(dest_ip_, dest_port_, &sock_fd, timeout_ms_, timeout_ms_);

moved_keys_all_ = 0;

while (is_migrating_) {

if (keys_num_ <= 0) {

sleep(1);

continue;

}

std::vectorstd::string migrate_batch_keys;

auto s = ElectMigrateKeys(&migrate_batch_keys);

std::lock_guardstd::mutex ones_guard(ones_mu_);

std::copy(migrating_ones_.begin(), migrating_ones_.end(), std::back_inserter(migrate_batch_keys));

if (migrate_batch_keys.size() != 0) {

moved_keys_num_ = 0;

}

std::vectorstd::string().swap(migrating_ones_);

for (auto const &key : migrate_batch_keys) {

auto s = slot_db.MigrateOneKey(sock_fd, key);

moved_keys_num_++;

moved_keys_all_++;

remained_keys_num_–;

}

if (error_) {

break;

}

if (remained_keys_num_ == 0) {

LOG(INFO) << “[slots-mgrt-sender-thread] Migrate slot: " << slot_num_ << " finished”;

slotsmgrt_cond_.Signal();

StopMigrateSlot();

break;

}

}

} // namespace Redis

2. 读耗时优化

RocksDB 的全量 Compact 导致磁盘 IO 从而造成业务访问的毛刺点问题,之前策略是每天凌晨低峰时段进行一次,过于频繁会导致访问毛刺点,频率过低会导致磁盘空间回收不及时。所以增加另外一种部分 Compact 策略,优先对那些比较老以及无效 KV 比较多的 SST进行 Compact。开启只需要在配置文件里面增加一行,那么则会在凌晨 3 到 7 点之间去检查这些 SST 文件并做Compact。

另外由于RocksDB定时Compact sst文件造成大量磁盘IO,而像SATA磁盘IO瓶颈最大200M/s超过这个阀值读写都要等待,所以还需要设置磁盘Compact最大磁盘IO阀值小于磁盘IO的瓶颈。

The maximum allowed aggregated write rate of flush and compaction (in MB/s).

If the rate exceeds max-io-mb, io will slow down.

0 is no limit

Default: 500

max-io-mb 150

最后

小编这些年深知大多数初中级工程师,想要提升自己,往往是自己摸索成长,自己不成体系的自学效果低效漫长且无助。

因此我收集整理了一份《2024年Java全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。

由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!

如果你需要这些资料,⬅专栏获取
s).

If the rate exceeds max-io-mb, io will slow down.

0 is no limit

Default: 500

max-io-mb 150

最后

小编这些年深知大多数初中级工程师,想要提升自己,往往是自己摸索成长,自己不成体系的自学效果低效漫长且无助。

因此我收集整理了一份《2024年Java全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。

[外链图片转存中…(img-g0CQ5tTr-1719681393609)]

[外链图片转存中…(img-p6NP9oPE-1719681393609)]

[外链图片转存中…(img-JdlzIf2Y-1719681393610)]

由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!

如果你需要这些资料,⬅专栏获取

  • 18
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值