不是吧！你还不懂DHT协议？

最新推荐文章于 2025-04-09 11:48:51 发布

小Leetcode~

最新推荐文章于 2025-04-09 11:48:51 发布

阅读量3.3k

点赞数 1

分类专栏： DHT 文章标签： DHT协议 DHT网络爬虫 python 爬虫

本文链接：https://blog.csdn.net/weixin_42870497/article/details/117693829

版权

DHT 专栏收录该内容

2 篇文章

订阅专栏

前文回顾

如果还不懂DHT网络，可以先看这篇文章。理解了DHT网络，后面的内容才看得明白。
别再装纯说不懂BT种子了

前提说明

BitTorrent使用了“分布式哈希表”（DHT）为没有Tracker的种子（torrent）存储了peer之间的联系信息。这样每个peer都成了Tracker。

DHT是基于kademlim网络，并且在UDP上实现的。

DHT 由节点组成，它存储了 peer 的位置。BitTorrent 客户端包含一个 DHT 节点，这个节点用来联系 DHT 中其他节点，从而得到 peer 的位置，进而通过 BitTorrent 协议下载。

解释说明
“peer”: 在一个 TCP 端口上监听的客户端/服务器，它实现了 BitTorrent 协议。简单理解就是一台电脑，但是端口号是基于TCP连接的

“节点”：在一个 UDP 端口上监听的客户端/服务器，它实现了 DHT(分布式哈希表) 协议。简单理解也是一台电脑，但是端口号是基于UDP连接的

“BitTorrent客户端”：指的是迅雷这些BT软件等

概述

每个节点有一个全局唯一的标识符，作为 “node ID”。

每个节点都维护一个路由表，路由表中包含一部分节点的信息。每个节点都知道在DHT网络中离自己很近的节点，离自己很远的节点知道的很少。

寻找节点的过程

1、当节点要为种子寻找peer时，它将自己的节点的哈希值（40位16进制字符）和种子的哈希值进行距离计算（异或算法）

2、向路由表中离种子最近的节点发送请求，问他们正在下载种子的peer的信息

3、被联系的节点如果知道下载种子的peer信息，那它将peer的信息回复给当前的节点。如果不知道，将回复离种子最近的peer的节点信息，让当前节点去请求离种子最近的peer。

4、重复3步骤，直到不能找到离种子更近的节点信息。

5、在查询完之后，客户端把自己作为peer信息，插入到所有回复节点中离种子最近的那个节点中。

Token令牌

如果一个节点宣布它所控制的 peer 正在下载一个种子，它必须在回复节点的同时，附加上对方向我们发送的最近的”令牌(token)”。Token令牌是用来核对信息的。主要体现在get_peer和announce_peer中，后面还会介绍。

路由表

每个节点都维护一个路由表，这个路由表保存着已知的好节点。路由表中的节点作为DHT请求的起始点。

这里的好节点是指在过去的 15 分钟以内，曾经对我们的某一个请求给出过回复的节点，或者曾经对我们的请求给出过一个回复(不用在15分钟以内)，并且在过去的 15 分钟给我们发送过请求。

还记得桶的概念吗？桶里装的都是好节点，一旦某个节点变坏了，我们就会用好的节点替代它。怎么确定是坏的节点呢？我们会向它发送ping请求，给出回复的是好的节点。

KRPC协议

KRPC协议是由bencode编码组成RPC结构，使用UDP报文发送。

包含3种消息：请求、回复、错误

在DHT协议中，请求又分为四种：ping、find_node、get_peers、announce_peer
在这里插入图片描述

一条KRPC 消息由一个独立的字典组成，其中有 2 个关键字是所有的消息都包含的，其余的附加关键字取决于消息类型。

每条消息都包含 t 关键字，它是一个代表了 transaction ID 的字符串类型。transaction ID 由请求节点产生，并且回复中要包含回显该字段，所以回复可能对应一个节点的多个请求。简单理解transaction ID就是一个请求的唯一标识

另外每个 KRPC 消息还应该包含的关键字是 y，它由一个字节组成，表明这个消息的类型。y 对应的值有三种情况：q 表示请求，r 表示回复，e 表示错误。
在这里插入图片描述

请求

请求，对应于 KPRC 消息字典中的 y 关键字的值是 q，它包含 2 个附加的关键字 q 和 a。关键字 q 是字符串类型，包含了请求的方法名字。（请求方法的名字就是ping、find_node、get_peers、announce_peer）关键字 a 一个字典类型包含了请求所附加的参数。

回复，对应于 KPRC 消息字典中的 y 关键字的值是 r，包含了一个附加的关键字 r。关键字 r 是字典类型，包含了返回的值。发送回复消息是在正确解析了请求消息的基础上完成的。

错误

错误，对应于 KPRC 消息字典中的 y 关键字的值是 e，包含一个附加的关键字 e。关键字 e 是列表类型。第一个元素是数字类型，表明了错误码。第二个元素是字符串类型，表明了错误信息。当一个请求不能解析或出错时，错误包将被发送。
在这里插入图片描述

DHT中的4种请求

所有的请求都包含一个关键字 id，它包含了请求节点的节点 ID。所有的回复也包含关键字 id，它包含了回复节点的节点 ID。

说明
节点ID（20位字节的字符串）和节点的哈希值即node节点ID（40位16进制的字符串）是不同的，不要搞混了。

ping

最基础的请求就是 ping。这时 KPRC 协议中的 “q” = “ping”。

Ping 请求包含一个参数 id，它是一个 20 字节的字符串包含了发送者网络字节序的节点 ID。

对应的 ping 回复也包含一个参数 id，包含了回复者的节点 ID。

报文示例

ping Query = {
				"t":"aa", 
				"y":"q",
				"q":"ping", 
				"a":{
					"id":"abcdefghij0123456789"
					}
			}

Response = {
			"t":"aa", 
			"y":"r", 
			"r": {
				"id":"mnopqrstuvwxyz123456"
				}
}

find_node

find_node 被用来查找给定 ID 的节点的联系信息。这时 KPRC 协议中的 “q” == “find_node”。

find_node 请求包含 2 个参数，第一个参数是 id，包含了请求节点的ID。第二个参数是 target，包含了请求者正在查找的节点的 ID。

当一个节点接收到了 find_node 的请求，他应该给出对应的回复，回复中包含 2 个关键字 id 和 nodes，nodes 是字符串类型，包含了被请求节点的路由表中最接近目标节点的 K(8) 个最接近的节点的联系信息。

报文示例

find_node Query = {
					"t":"aa", 
					"y":"q",
					 "q":"find_node", 
					 "a": {
						 "id":"abcdefghij0123456789",
						  "target":"mnopqrstuvwxyz123456"
						  }
 				 }

Response = {
			 "t":"aa",
			 "y":"r",
			 "r": {
				  "id":"0123456789abcdefghij",
				   "nodes": "def456..."
  				 }
   			}

get_peers

get_peers 与 torrent 文件的 infohash 有关。

这时 KPRC 协议中的 “q” = “get_peers”。get_peers 请求包含 2 个参数。第一个参数是 id，包含了请求节点的 ID。第二个参数是 info_hash，它代表 torrent 文件的 infohash。

如果被请求的节点有对应 info_hash 的 peers，他将返回一个关键字 values，这是一个列表类型的字符串。每一个字符串包含了 “CompactIP-address/portinfo” 格式的 peers 信息。如果被请求的节点没有这个 infohash 的 peers，那么他将返回关键字 nodes，这个关键字包含了被请求节点的路由表中离 info_hash 最近的 K 个节点，使用 “Compactnodeinfo” 格式回复。

在这两种情况下，关键字 token 都将被返回。token 关键字在今后的 annouce_peer 请求中必须要携带。token 是一个短的二进制字符串。

报文格式

get_peers Query = {
					"t":"aa", 
					"y":"q", 
					"q":"get_peers", 
					"a": {
						"id":"abcdefghij0123456789", 
						"info_hash":"mnopqrstuvwxyz123456"
						}
					}

Response with peers = {
						"t":"aa",
						 "y":"r", 
						 "r": {
							 "id":"abcdefghij0123456789",
							 "token":"aoeusnth",
							 "values": ["axje.u", "idhtnm"]
							   }
   }

Response with closest nodes = {
								"t":"aa",
								 "y":"r",
								  "r": {
									  "id":"abcdefghij0123456789", 
									  "token":"aoeusnth",
									   "nodes": "def456..."
									   }
   								}

补充知识

联系信息编码 Contact Encoding

Peers 的联系信息被编码为 6 字节的字符串。又被称为 “CompactIP-address/port info”，其中前 4 个字节是网络字节序的 IP 地址，后 2 个字节是网络字节序的端口。

节点的联系信息被编码为 26 字节的字符串。又被称为 “Compactnode info”，其中前 20 字节是网络字节序的节点 ID，后面 6 个字节是 peers 的 “CompactIP-address/port info”

announce_peer

这个请求用来表明发出 announce_peer 请求的节点，正在某个端口下载 torrent 文件。

announce_peer 包含 4 个参数。

第一个参数是 id，包含了请求节点的 ID；

第二个参数是 info_hash，包含了 torrent 文件的 infohash；

第三个参数是 port 包含了整型的端口号，表明 peer 在哪个端口下载；

第四个参数数是 token，这是在之前的 get_peers 请求中收到的回复中包含的。

收到 announce_peer 请求的节点必须检查这个 token 与之前我们回复给这个节点 get_peers 的 token 是否相同。如果相同，那么被请求的节点将记录发送 announce_peer 节点的 IP 和请求中包含的 port 端口号在 peer 联系信息中对应的 infohash 下

报文示例

announce_peers Query = {
						"t":"aa",
						 "y":"q", 
						 "q":"announce_peer", 
						 "a": {
							 "id":"abcdefghij0123456789", 
							 "implied_port": 1, 
							 "info_hash":"mnopqrstuvwxyz123456", 
							 "port": 6881, 
							 "token": "aoeusnth"
							 }
						 }

Response = {
			"t":"aa",
			 "y":"r", 
			 "r": {
				 "id":"mnopqrstuvwxyz123456"
				 }
			 }

DHT网络爬虫和Python爬虫的区别

要想成功编写出DHT网络爬虫，DHT网络协议必须弄明白。

DHT爬虫，就是把自己伪装成DHT网络中的一个节点，当某个客户端想要下载某个torrent文件时，就会在DHT网络上发起广播，当它询问我的节点时，我就知道：哦，原来有人下载这个种子，那么在DHT网络上肯定有这个种子。于是我把这个种子的信息保存到我的数据库。

Python 爬虫，是主动出击，盲目寻找。在互联网的海量网页中寻找种子和磁力链接。而 DHT 爬虫则变成了被动等待，当别人来询问时，就把它的询问结果记录下来，如果一个种子被询问了很多次，则说明这个种子是一个热门种子，这是 Python 爬虫无法做到的。

简单总结：python爬虫是主动出击，而DHT爬虫是被动等待。

不是吧！你还不懂DHT协议？

目录

前文回顾

前提说明

概述

寻找节点的过程

Token令牌

路由表

KRPC协议

请求

回复

错误

DHT中的4种请求

ping

find_node

get_peers

补充知识

announce_peer

DHT网络爬虫和Python爬虫的区别