分布式系统中的进程标识

分布式系统中的进程唯一标识

最新推荐文章于 2024-03-30 16:23:36 发布

原创

最新推荐文章于 2024-03-30 16:23:36 发布 · 1.6w 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#tcp #memcached #服务器 #duplicates #crash #linux

本文探讨了在分布式系统中如何为进程分配唯一标识符，以确保进程重启或失败时，其他进程能识别其状态变化。错误做法如ip:port或host:pid可能会导致重复或混淆。正确的做法是使用四元组ip:port:start_time:pid，其中start_time表示进程启动时间，确保唯一性且具有可追溯性。此外，文章提及TCP协议的启发，如何避免流浪的包（wandering duplicates）并确保连接的唯一性。

陈硕 (giantchen_AT_gmail)

Blog.csdn.net/Solstice

昨天跟朋友聊天，谈到了分布式系统中如何为进程取标识符(process identifier)，写篇博客简单总结一下我的观点。

本文假定一台机器 (host) 只有一个 IP，不考虑 multihome 的情况。同时假定分布式系统中的每一台机器都正确运行了 NTP，各台机器的时间大体同步。

“进程 process”是操作系统的两大基本概念之一，指的是在内存中运行的程序。在日常交流中，“进程”这个词通常不止这一个意思。有时候我们会说 “httpd 进程”或者“mysqld 进程”，指的其实是 program，而不一定是特指某一个“进程”——某一次 fork() 系统调用的产物。一个“httpd 进程”重启了，它还是“一个 httpd 进程”。本文讨论的是，如何为一个程序每次运行 的进程取一个唯一标识符。也就是说，httpd 程序第一次运行，进程是 httpd_1，它原地重启了，进程是 httpd_2。

本文所指的“进程标识符”是用来唯一标识一个程序的“一次运行”的。每次启动一个进程，这个进程应该被赋予一个唯一的标识符，与当前正在运行的所有进程都不同；不仅如此，它应该与历史上曾经运行过，目前已消亡的进程也都不同（这两条的直接推论是，与将来可能运行的进程也都不同）。“为每个进程命名”在分布式系统中有相当大的实际意义，特别是在考虑 failover 的时候。因为一个程序重启之后的新进程和它的“前世进程”的状态通常不一样，凡是与它打交道的其他进程(s)最好能通过它的进程标识符变更来很容易地判断该程序已经重启，而采取必要的救灾措施，防止搭错话。

本文先假定每个服务端程序的端口是静态分配的，在公司内部有一个公用 wiki 来记录端口和程序的对应关系（然后通过 NIS 或 DNS 发布）。比如端口 11211 始终对应 memcached，其他程序不会使用 11211 端口；3306 始终留给 mysqld；3690 始终留给 svnserve。在分布式系统的初级阶段，这是通常的做法；到了高级阶段，多半会用动态分配端口号，因为