目录
前文回顾
如果还不懂DHT网络,可以先看这篇文章。理解了DHT网络,后面的内容才看得明白。
别再装纯说不懂BT种子了
前提说明
BitTorrent使用了“分布式哈希表”(DHT)为没有Tracker的种子(torrent)存储了peer之间的联系信息。这样每个peer都成了Tracker。
DHT是基于kademlim网络,并且在UDP上实现的。
DHT 由节点组成,它存储了 peer 的位置。BitTorrent 客户端包含一个 DHT 节点,这个节点用来联系 DHT 中其他节点,从而得到 peer 的位置,进而通过 BitTorrent 协议下载。
解释说明
“peer”: 在一个 TCP 端口上监听的客户端/服务器,它实现了 BitTorrent 协议。简单理解就是一台电脑,但是端口号是基于TCP连接的
“节点”: 在一个 UDP 端口上监听的客户端/服务器,它实现了 DHT(分布式哈希表) 协议。简单理解也是一台电脑,但是端口号是基于UDP连接的
“BitTorrent客户端”:指的是迅雷这些BT软件等
概述
每个节点有一个全局唯一的标识符,作为 “node ID”。
每个节点都维护一个路由表,路由表中包含一部分节点的信息。每个节点都知道在DHT网络中离自己很近的节点,离自己很远的节点知道的很少。
寻找节点的过程
1、 当节点要为种子寻找peer时,它将自己的节点的哈希值(40位16进制字符)和种子的哈希值进行距离计算(异或算法)
2、 向路由表中离种子最近的节点发送请求,问他们正在下载种子的peer的信息
3、 被联系的节点如果知道下载种子的peer信息,那它将peer的信息回复给当前的节点。如果不知道,将回复离种子最近的peer的节点信息,让当前节点去请求离种子最近的peer。
4、 重复3步骤,直到不能找到离种子更近的节点信息。
5、 在查询完之后,客户端把自己作为peer信息,插入到所有回复节点中离种子最近的那个节点中。
Token令牌
如果一个节点宣布它所控制的 peer 正在下载一个种子,它必须在回复节点的同时,附加上对方向我们发送的最近的”令牌(token)”。Token令牌是用来核对信息的。主要体现在get_peer和announce_peer中,后面还会介绍。
路由表
每个节点都维护一个路由表,这个路由表保存着已知的好节点。路由表中的节点作为DHT请求的起始点。
这里的好节点是指在过去的 15 分钟以内,曾经对我们的某一个请求给出过回复的节点,或者曾经对我们的请求给出过一个回复(不用在15分钟以内),并且在过去的 15 分钟给我们发送过请求。
还记得桶的概念吗?桶里装的都是好节点,一旦某个节点变坏了,我们就会用好的节点替代它。怎么确定是坏的节点呢?我们会向它发送ping请求,给出回复的是好的节点。
KRPC协议
KRPC协议是由bencode编码组成RPC结构,使用UDP报文发送。
包含3种消息:请求、回复、错误
在DHT协议中,请求又分为四种:ping、find_node、get_peers、announce_peer
一条KRPC 消息由一个独立的字典组成,其中有 2 个关键字是所有的消息都包含的,其余的附加关键字取决于消息类型。
每条消息都包含 t 关键字,它是一个代表了 transaction ID 的字符串类型。transaction ID 由请求节点产生,并且回复中要包含回显该字段,所以回复可能对应一个节点的多个请求。简单理解transaction ID就是一个请求的唯一标识
另外每个 KRPC 消息还应该包含的关键字是 y,它由一个字节组成,表明这个消息的类型。y 对应的值有三种情况:q 表示请求,r 表示回复,e 表示错误。
请求
请求,对应于 KPRC 消息字典中的 y 关键字的值是 q,它包含 2 个附加的关键字 q 和 a。关键字 q 是字符串类型,包含了请求的方法名字。(请求方法的名字就是ping、find_node、get_peers、announce_peer)关键字 a 一个字典类型包含了请求所附加的参数。
回复
回复,对应于 KPRC 消息字典中的 y 关键字的值是 r,包含了一个附加的关键字 r。关键字 r 是字典类型,包含了返回的值。发送回复消息是在正确解析了请求消息的基础上完成的。
错误
错误,对应于 KPRC 消息字典中的 y 关键字的值是 e,包含一个附加的关键字 e。关键字 e 是列表类型。第一个元素是数字类型,表明了错误码。第二个元素是字符串类型,表明了错误信息。当一个请求不能解析或出错时,错误包将被发送。
DHT中的4种请求
所有的请求都包含一个关键字 id,它包含了请求节点的节点 ID。所有的回复也包含关键字 id,它包含了回复节点的节点 ID。
说明
节点ID(20位字节的字符串)和节点的哈希值即node节点ID(40位16进制的字符串)是不同的,不要搞混了。
ping
最基础的请求就是 ping。这时 KPRC 协议中的 “q” = “ping”。
Ping 请求包含一个参数 id,它是一个 20 字节的字符串包含了发送者网络字节序的节点 ID。
对应的 ping 回复也包含一个参数 id,包含了回复者的节点 ID。
报文示例
ping Query = {
"t":"aa",
"y":"q",
"q":"ping",
"a":{
"id":"abcdefghij0123456789"
}
}
Response = {
"t":"aa",
"y":"r",
"r": {
"id":"mnopqrstuvwxyz123456"
}
}
find_node
find_node 被用来查找给定 ID 的节点的联系信息。这时 KPRC 协议中的 “q” == “find_node”。
find_node 请求包含 2 个参数,第一个参数是 id,包含了请求节点的ID。第二个参数是 target,包含了请求者正在查找的节点的 ID。
当一个节点接收到了 find_node 的请求,他应该给出对应的回复,回复中包含 2 个关键字 id 和 nodes,nodes 是字符串类型,包含了被请求节点的路由表中最接近目标节点的 K(8) 个最接近的节点的联系信息。
报文示例
find_node Query = {
"t":"aa",
"y":"q",
"q":"find_node",
"a": {
"id":"abcdefghij0123456789",
"target":"mnopqrstuvwxyz123456"
}
}
Response = {
"t":"aa",
"y":"r",
"r": {
"id":"0123456789abcdefghij",
"nodes": "def456..."
}
}
get_peers
get_peers 与 torrent 文件的 infohash 有关。
这时 KPRC 协议中的 “q” = “get_peers”。get_peers 请求包含 2 个参数。第一个参数是 id,包含了请求节点的 ID。第二个参数是 info_hash,它代表 torrent 文件的 infohash。
如果被请求的节点有对应 info_hash 的 peers,他将返回一个关键字 values,这是一个列表类型的字符串。每一个字符串包含了 “CompactIP-address/portinfo” 格式的 peers 信息。如果被请求的节点没有这个 infohash 的 peers,那么他将返回关键字 nodes,这个关键字包含了被请求节点的路由表中离 info_hash 最近的 K 个节点,使用 “Compactnodeinfo” 格式回复。
在这两种情况下,关键字 token 都将被返回。token 关键字在今后的 annouce_peer 请求中必须要携带。token 是一个短的二进制字符串。
报文格式
get_peers Query = {
"t":"aa",
"y":"q",
"q":"get_peers",
"a": {
"id":"abcdefghij0123456789",
"info_hash":"mnopqrstuvwxyz123456"
}
}
Response with peers = {
"t":"aa",
"y":"r",
"r": {
"id":"abcdefghij0123456789",
"token":"aoeusnth",
"values": ["axje.u", "idhtnm"]
}
}
Response with closest nodes = {
"t":"aa",
"y":"r",
"r": {
"id":"abcdefghij0123456789",
"token":"aoeusnth",
"nodes": "def456..."
}
}
补充知识
联系信息编码 Contact Encoding
Peers 的联系信息被编码为 6 字节的字符串。又被称为 “CompactIP-address/port info”,其中前 4 个字节是网络字节序的 IP 地址,后 2 个字节是网络字节序的端口。
节点的联系信息被编码为 26 字节的字符串。又被称为 “Compactnode info”,其中前 20 字节是网络字节序的节点 ID,后面 6 个字节是 peers 的 “CompactIP-address/port info”
announce_peer
这个请求用来表明发出 announce_peer 请求的节点,正在某个端口下载 torrent 文件。
announce_peer 包含 4 个参数。
第一个参数是 id,包含了请求节点的 ID;
第二个参数是 info_hash,包含了 torrent 文件的 infohash;
第三个参数是 port 包含了整型的端口号,表明 peer 在哪个端口下载;
第四个参数数是 token,这是在之前的 get_peers 请求中收到的回复中包含的。
收到 announce_peer 请求的节点必须检查这个 token 与之前我们回复给这个节点 get_peers 的 token 是否相同。如果相同,那么被请求的节点将记录发送 announce_peer 节点的 IP 和请求中包含的 port 端口号在 peer 联系信息中对应的 infohash 下
报文示例
announce_peers Query = {
"t":"aa",
"y":"q",
"q":"announce_peer",
"a": {
"id":"abcdefghij0123456789",
"implied_port": 1,
"info_hash":"mnopqrstuvwxyz123456",
"port": 6881,
"token": "aoeusnth"
}
}
Response = {
"t":"aa",
"y":"r",
"r": {
"id":"mnopqrstuvwxyz123456"
}
}
DHT网络爬虫和Python爬虫的区别
要想成功编写出DHT网络爬虫,DHT网络协议必须弄明白。
DHT爬虫,就是把自己伪装成DHT网络中的一个节点,当某个客户端想要下载某个torrent文件时,就会在DHT网络上发起广播,当它询问我的节点时,我就知道:哦,原来有人下载这个种子,那么在DHT网络上肯定有这个种子。于是我把这个种子的信息保存到我的数据库。
Python 爬虫,是主动出击,盲目寻找。在互联网的海量网页中寻找种子和磁力链接。而 DHT 爬虫则变成了被动等待,当别人来询问时,就把它的询问结果记录下来,如果一个种子被询问了很多次,则说明这个种子是一个热门种子,这是 Python 爬虫无法做到的。
简单总结:python爬虫是主动出击,而DHT爬虫是被动等待。