使用C++ 20协程实现Raft共识算法,2024年最新Golang大厂高级面试题灵魂100问

本文描述了如何在不使用任何额外库的情况下在c++ 20中实现Raft Server共识模块。文章分为三个主要部分:

  1. Raft算法的全面概述
  2. 关于Raft服务器开发的详细说明
  3. 对基于协程的自定义网络库的描述

该实现利用了C++ 20的强大功能,特别是协同程序,为构建分布式系统的关键组件提供了一种有效而现代的方法。本文会不仅展示了C++ 20协程在复杂编程环境中的实际应用和优点,而且还深入探讨了从头开始构建共识模块(如Raft Server)时遇到的挑战和解决方案。可以参考开源项目:miniraft-cpp 和 coroio 进一步探索和实际应用。

简介

在深入研究Raft算法的复杂性之前,让我们考虑一个现实世界的例子。我们的目标是开发一个网络键值存储(K/V)系统。在C++中,这可以通过使用unordered_map<string, string>轻松实现。然而,在实际应用程序中,对容错存储系统的需求增加了复杂性。一种看似简单的方法可能需要部署三台(或更多)机器,每台机器托管该服务的一个副本。用户可能期望管理数据复制和一致性。然而,这种方法可能导致不可预测的行为。例如,可以使用特定的键更新数据,然后稍后检索旧版本。

用户真正想要的是一个分布式系统,可能分布在多台机器上,运行起来像单主机系统一样流畅。为了满足这一需求,共识模块通常被放置在K/V存储(或任何类似的服务,以下称为“状态机”)的前面。此配置确保与状态机的所有用户交互都通过共识模块路由,而不是直接访问。考虑到这个上下文,现在让我们看看如何实现这样一个共识模块,以Raft算法为例。

Raft概述

在Raft算法中,有奇数个参与者称为peers。每个peers都有自己的记录日志。有一个同侪领袖,其他人都是追随者。用户将所有请求(读和写)直接发送给leader。当接收到更改状态机的写请求时,leader首先将其记录下来,然后再将其转发给follower,后者也将其记录下来。一旦大多数peers成功响应,leader就认为该条目已提交,将其应用于状态机,并通知用户其成功。

Term是Raft中的一个关键概念,它只会不断发展。当系统发生变化时,例如领导层的变化,Term也会发生变化。Raft中的日志具有特定的结构,每个条目由Term和Payload组成。这个词指的是写最初条目的领导者。Payload表示要对状态机进行的更改。Raft保证具有相同索引和Term的两个条目是相同的。Raft日志不只是附加的,可以被截断。例如,在下面的场景中,leader S1在崩溃之前复制了两个条目。S2率先开始复制条目,S1的log与S2和S3的log不同。因此,S1日志中的最后一个条目将被删除并替换为一个新条目。

Two entries with the same index and term are identical

Raft RPC API

让我们再看一下一下Raft RPC。值得注意的是,Raft API非常简单,只有两个调用。我们将从查看领导人选举API开始。重要的是要注意,Raft确保每学期只能有一个领导者。如果选举失败,也可能出现没有领导人的任期。为了确保只发生一次选举,对peers将其投票保存在名为VotedFor的持久变量中。选举RPC称为RequestVote,它有三个参数:Term、LastLogIndex和LastLogTerm。响应包含Term和votegranting。值得注意的是,每个请求都包含Term,在Raft中,peer只有在它们的Terms兼容的情况下才能有效地通信。

当一个peer发起选举时,它向其他peer发送RequestVote请求并收集他们的投票。如果大多数人的回答都是积极的,这个伙计就晋升为领导者。

现在让我们看一下AppendEntries请求。它接受参数Term、PrevLogIndex、PrevLogTerm和Entries,响应包含Term和Success。如果请求中的Entries字段为空,则充当Heartbeat。

当接收到AppendEntries请求时,follower会检查PrevLogIndex中的Term。如果匹配到PrevLogTerm, follower会在其日志中添加以PrevLogIndex + 1开头的条目(如果存在,则删除在PrevLogIndex之后的条目):

Flow of AppendEntries request being received

如果条件不匹配,则follower返回Success=false。在这种情况下,leader会重新发送请求,并将PrevLogIndex降低1。

当peer接收到RequestVote请求时,它将其LastTerm和LastLogIndex对与最近的日志条目进行比较。如果这对小于或等于请求者的,peer返回votegranting =true。

Raft中的状态转换

Raft的状态转换是这样的。每个peer从Follower状态开始。如果Follower在设定的超时时间内没有收到AppendEntries,则扩展其Term并移动到Candidate状态,从而触发选举。如果赢得选举,对等体可以从Candidate状态移动到Leader状态,如果收到AppendEntries请求,则返回到Follower状态。如果在超时时间内没有转换为Follower或Leader, Candidate也可以恢复为Candidate。如果处于任何状态的peer接收到具有大于其当前状态的Term的RPC请求,则它将移动到Follower状态。

安全提交

现在让我们考虑一个示例,该示例演示了Raft并不像看起来那么简单。我从Diego Ongaro的论文中选取了这个例子。S1在第2项中处于领先地位,它在崩溃之前复制了两个条目。在此之后,S5在第三学期领先,增加了一个条目,然后崩溃了。接下来,S2接管了Term 4的领导权,复制了Term 2的条目,为Term 4添加了自己的条目,然后崩溃了。这导致两种可能的结果:S5重新获得领导地位并截断Term 2中的条目,或者S1重新获得领导地位并提交Term 2中的条目。Term 2中的条目只有在被新leader的后续条目覆盖后才会被安全提交。

How the Raft algorithm operates in a dynamic and often unpredictable set of circumstances

这个示例演示了Raft算法如何在动态且通常不可预测的情况下运行。事件序列(包括多个leader和崩溃)展示了跨分布式系统维护一致状态的复杂性。这种复杂性不会立即显现出来,但在涉及领导者变更和系统故障的情况下,它变得很重要。这个例子强调了处理这种复杂性的健壮和深思熟虑的方法的重要性,这正是Raft试图解决的问题。

资料

为了进一步学习和更深入地了解Raft,我推荐以下材料:Raft的原始论文,这是理想的实现。Diego Ongaro的博士论文提供了更深入的见解。

Raft实现

现在让开始Raft服务器实现,在我看来,它从C++ 20协程中获益良多。在我的实现中,持久化状态存储在内存中。但是,在实际场景中,应该将其保存到磁盘。稍后我会详细讨论MessageHolder。它的功能类似于shared_ptr,但专门设计用于处理Raft消息,确保有效地管理和处理这些通信。

struct TState {
uint64_t CurrentTerm = 1;
uint32_t VotedFor = 0;
std::vector<TMessageHolder> Log;
};

在易变状态中,我用L代表“领导者”或F代表“追随者”来标记条目,以澄清它们的用途。CommitIndex表示提交的最后一个日志条目。相反,LastApplied是应用到状态机的最新日志条目,它总是小于或等于CommitIndex。NextIndex很重要,因为它标识要发送给对等体的下一个日志条目。类似地,MatchIndex跟踪发现匹配的最后一个日志条目。Votes部分包含投票给我的同行的id。超时是一个需要管理的重要方面:HeartbeatDue和RpcDue管理leader超时,而ElectionDue处理follower超时。

using TTime = std::chrono::time_pointstd::chrono::steady_clock;

struct TVolatileState {
uint64_t CommitIndex = 0; // L,F
uint64_t LastApplied = 0; // L,F
std::unordered_map<uint32_t, uint64_t> NextIndex; // L
std::unordered_map<uint32_t, uint64_t> MatchIndex; // L
std::unordered_set<uint32_t> Votes; // C
std::unordered_map<uint32_t, TTime> HeartbeatDue; // L
std::unordered_map<uint32_t, TTime> RpcDue; // L
TTime ElectionDue; // F
};

Raft API

我的Raft算法实现有两个类。第一个是INode,它表示peers。这个类包括两个方法:Send(将传出的消息存储在内部缓冲区中)和Drain(处理实际的消息分派)。Raft是第二类,它管理当前对等体的状态。它还包括两个方法:Process(处理传入的连接)和ProcessTimeout(必须定期调用),以管理超时,如leader选举超时。这些类的用户应该根据需要使用Process、ProcessTimeout和Drain方法。INode的Send方法在Raft类内部调用,确保消息处理和状态管理在Raft框架内无缝集成。

struct INode {
virtual ~INode() = default;
virtual void Send(TMessageHolder message) = 0;
virtual void Drain() = 0;
};

class TRaft {
public:
TRaft(uint32_t node,
const std::unordered_map<uint32_t, std::shared_ptr>& nodes);
void Process(TTime now,
TMessageHolder message,
const std::shared_ptr& replyTo = {});
void ProcessTimeout(TTime now);
};

Raft 消息

现在让我们看看我是如何发送和读取Raft消息的。我没有使用序列化库,而是以TLV格式读取和发送原始结构。这是消息头的样子:

struct TMessage {
uint32_t Type;
uint32_t Len;
char Value[0];
};

为了方便起见,我引入了第二级头文件:

struct TMessageEx: public TMessage {
uint32_t Src = 0;
uint32_t Dst = 0;
uint64_t Term = 0;
};

这包括每条消息中的发送者和接收者的ID。除了LogEntry之外,所有消息都继承自TMessageEx。LogEntry和AppendEntries的实现如下:

struct TLogEntry: public TMessage {
static constexpr EMessageType MessageType = EMessageType::LOG_ENTRY;
uint64_t Term = 1;
char Data[0];
};

struct TAppendEntriesRequest: public TMessageEx {
static constexpr EMessageType MessageType
= EMessageType::APPEND_ENTRIES_REQUEST;
uint64_t PrevLogIndex = 0;
uint64_t PrevLogTerm = 0;
uint32_t Nentries = 0;
};

为了方便消息处理,我使用了一个叫做MessageHolder的类,类似于shared_ptr:

template
requires std::derived_from<T, TMessage>
struct TMessageHolder {
T* Mes;
std::shared_ptr<char[]> RawData;
uint32_t PayloadSize;
std::shared_ptr<TMessageHolder[]> Payload;

template
requires std::derived_from<U, T>
TMessageHolder Cast() {…}

template
requires std::derived_from<U, T>
auto Maybe() { … }
};

该类包括一个包含消息本身的字符数组。它还可能包括一个Payload(仅用于AppendEntry),以及用于将基本类型消息安全转换为特定类型消息的方法(Maybe方法)和不安全转换(Cast方法)。下面是一个使用MessageHolder的典型例子:

void SomeFunction(TMessageHolder message) {
auto maybeAppendEntries = message.Maybe();
if (maybeAppendEntries) {
auto appendEntries = maybeAppendEntries.Cast();
}
// if we are sure
auto appendEntries = message.Cast();
// usage with overloaded operator->
auto term = appendEntries->Term;
auto nentries = appendEntries->Nentries;
// …
}

在Candidate状态处理程序中有一个真实的例子:

void TRaft::Candidate(TTime now, TMessageHolder message) {
if (auto maybeResponseVote = message.Maybe()) {
OnRequestVote(std::move(maybeResponseVote.Cast()));
} else
if (auto maybeRequestVote = message.Maybe())
{
OnRequestVote(now, std::move(maybeRequestVote.Cast()));
} else
if (auto maybeAppendEntries = message.Maybe())
{
OnAppendEntries(now, std::move(maybeAppendEntries.Cast()));
}
}

这种设计方法提高了Raft实现中消息处理的效率和灵活性。

Raft 服务端

让我们讨论一下Raft服务器实现。Raft服务器将为网络交互设置协同程序。首先,我们将查看处理消息读写的协程。本文稍后将讨论用于这些协程的原语,并对网络库进行分析。写协程负责向套接字写入消息,而读协程稍微复杂一些。要读取,它必须首先检索Type和Len变量,然后分配Len字节数组,最后读取消息的其余部分。这种结构促进了Raft服务器内网络通信的高效管理。

template
TValueTask
TMessageWriter::Write(TMessageHolder message) {
co_await TByteWriter(Socket).Write(message.Mes, message->Len);

auto payload = std::move(message.Payload);
for (uint32_t i = 0; i < message.PayloadSize; ++i) {
co_await Write(std::move(payload[i]));
}

co_return;
}

template
TValueTask<TMessageHolder> TMessageReader::Read() {
decltype(TMessage::Type) type; decltype(TMessage::Len) len;
auto s = co_await Socket.ReadSome(&type, sizeof(type));
if (s != sizeof(type)) { /* throw / }
s = co_await Socket.ReadSome(&len, sizeof(len));
if (s != sizeof(len)) { /
throw */}
auto mes = NewHoldedMessage(type, len);
co_await TByteReader(Socket).Read(mes->Value, len - sizeof(TMessage));
auto maybeAppendEntries = mes.Maybe();
if (maybeAppendEntries) {
auto appendEntries = maybeAppendEntries.Cast();
auto nentries = appendEntries->Nentries; mes.InitPayload(nentries);
for (uint32_t i = 0; i < nentries; i++) mes.Payload[i] = co_await Read();
}
co_return mes;
}

要启动一个Raft服务器,需要创建一个RaftServer类的实例并调用Serve方法。Serve方法启动两个协程。Idle协程负责定期处理超时,而InboundServe负责管理传入的连接。

class TRaftServer {
public:
void Serve() {
Idle();
InboundServe();
}

private:
TVoidTask InboundServe();
TVoidTask InboundConnection(TSocket socket);
TVoidTask Idle();
}

通过accept调用接收传入连接。接下来,启动InboundConnection协程,它读取传入消息并将其转发给Raft实例进行处理。此配置确保Raft服务器可以有效地处理内部超时和外部通信。

TVoidTask InboundServe() {
while (true) {
auto client = co_await Socket.Accept();
InboundConnection(std::move(client));
}
co_return;
}

TVoidTask InboundConnection(TSocket socket) {
while (true) {
auto mes = co_await TMessageReader(client->Sock()).Read();
Raft->Process(std::chrono::steady_clock::now(), std::move(mes),
client);
Raft->ProcessTimeout(std::chrono::steady_clock::now());
DrainNodes();
}
co_return;
}

Idle协程的工作方式如下:它在每个睡眠秒调用ProcessTimeout方法。值得注意的是,这个协程使用异步睡眠。这种设计使Raft服务器能够有效地管理时间敏感的操作,而不会阻塞其他进程,从而提高服务器的整体响应能力和性能。

while (true) {
Raft->ProcessTimeout(std::chrono::steady_clock::now());
DrainNodes();
auto t1 = std::chrono::steady_clock::now();
if (t1 > t0 + dt) {
DebugPrint();
t0 = t1;
}
co_await Poller.Sleep(t1 + sleep);
}

协程是为发送外发消息而创建的,设计得很简单。它在循环中将所有累积的消息重复发送到套接字。如果发生错误,它会启动另一个负责连接的协程(通过connect函数)。此结构可确保平稳有效地处理传出消息,同时通过错误处理和连接管理保持健壮性。

try {
while (!Messages.empty()) {
auto tosend = std::move(Messages); Messages.clear();

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数Go语言工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Go语言全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
img
img
img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Golang知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加V获取:vip1024b (备注Go)
img

一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

转存中…(img-RY3pyvuF-1713012698738)]

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Golang知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加V获取:vip1024b (备注Go)
[外链图片转存中…(img-y8fT3Ltc-1713012698739)]

一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 24
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值