100行python代码做一个程序_教你用100行Python代码写一个抓包工具

现代计算机程序大部分时候离不开网络,作为开发者,在日常开发网络相关的程序或者排查程序错误时经常会用抓包工具来分析网卡收发的数据,比如著名的tcpdump,Wireshark等。今天我们尝试用100行左右的Python代码在Linux系统上实现一个简单的抓包工具。

本文共分为四节,前三节分别介绍了三个基本概念,包括端序、socket、以太网帧结构,最后一节介绍具体实现,文末有完整代码。

1. 端序

试想一个16进制数0x12345678,大端序在内存中的储存顺序如下,高字节保存在内存的低地址,高字节在前:

内存地址 0 1 2 3

---------------------

字节数据 | 12 | 34 | 56 | 78 |

---------------------

而小端序高字节保存在内存的高地址,低字节在前:

内存地址 0 1 2 3

---------------------

字节数据 | 78 | 56 | 34 | 12 |

---------------------

大端序还是小端序是由硬件决定的,通常CPU和内存中的数据都是小端序,而网络传输都用大端序,因为大端序字节流解析起来更方便,但有些特殊的设备是例外。

Python中socket模块的htons,ntohs,htonl,ntohl函数用来处理网络字节顺序与本地字节顺序之间的转换。函数名中h表示host,n表示net,s表示short int(2字节),l表示long int(4字节),比如htons是将2字节长的整数从本地端序转换为网络端序。比如:

import socket

i = 0x1234 # 本地小端序

net_i = socket.htons(i) # 网络大端序

print(hex(i), hex(net_i))

# 输出 0x1234 0x3412

2. socket编程

socket是操作系统用户与TCP/IP协议族通信的接口,创建一个socket需要3个参数,地址簇,socket类型,协议。比如可以用以下代码创建一个常用的TCP套接字,用来收发TCP数据流:

import socket

# AF_INET: internet协议簇

# SOCK_STREAM: stream类型的socket

# 0: 使用该socket类型的默认协议,即TCP协议

sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM, 0)

也可以用以下代码创建一个UDP套接字,用来收发UDP数据包:

# SOCK_STREAM: data gram类型的socket

# 0: 使用该socket类型的默认协议,即UDP协议

sock = socket.socket(socket.AF_INET, socket.SOCK_DGRAM, 0)

但是我们今天要用的不是这类套接字,而是更底层的原始套接字raw socket,这类套接字可以操作更底的协议比如IP协议和以太网协议,创建raw socket需要root权限。可以用以下代码创建一个接收以太网数据包的原始套接字:

ETH_P_ALL = 0x3

ETH_P_IP = 0x0800

ETH_P_ARP = 0x0806

ETH_P_RARP = 0x8035

ETH_P_IPV6 = 0x086dd

raw_sock = socket.socket(socket.AF_PACKET, socket.SOCK_RAW, socket.htons(ETH_P_ALL))

其中ETH_P_ALL表示监听所有协议的以太网数据包,如果改用ETH_P_IP则只会监听IP协议的数据包。(由于Windows系统上没有定义AF_PACKET,所以这段代码无法在Windows系统上运行)

然后可以开始监听:

while True:

packet, packet_info = raw_sock.recvfrom(1500)

print(packet)

recvfrom函数返回2个值,第一个是以太网数据包,第二个是该数据包相关的信息。

3. 以太网帧格式

以太网帧根据不同的标准有多种格式,常见的有Ethernet II格式和Ethernet 802.3格式。

Ethernet II帧格式DMAC:6字节,目标MAC地址

SMAC:6字节,源MAC地址

Type:2字节,上层协议类型

Data:46~1500字节可变长度,载荷数据

FCS:最后4字节,帧校验

Ethernet 802.3帧格式DMAC:6字节,目标MAC地址

SMAC:6字节,源MAC地址

Length:2字节,Data字段包含的字节数

LLC:3字节,逻辑链路控制

SNAP:5字节,Sub-network Access Protocol

Data:38~1492字节可变长度,载荷数据

FCS:最后4字节,帧校验

可以看到Ethernet II和Ethernet802.3格式的前12字节结构相同,由于Ethernet 802.3的头部多了8字节,所以载荷数据长度最大只能为1492字节。另外需要注意,原始套接字读取到的包最后不包含帧校验。

4. 解析以太网头部

在我们了解了以太网帧格式后就可以开始解析接收到的二进制数据了,我们可以用以下代码把MAC地址转换成整数:

BIG_ENDIAN = 'big'

dst_mac = int.from_bytes(packet[:6], BIG_ENDIAN)

src_mac = int.from_bytes(packet[6:12], BIG_ENDIAN)

从第12、13字节用来区分接收到的是Ethernet II帧还是Ethernet 802.3帧,如果该数字小于等于1500(0x05DC)可以判断接收到的是Ethernet 802.3帧,如果该数字大于等于1536(0x0600)则接收到的是Ethernet II帧。其他字段按照帧格式依次解析即可。

完整代码如下:

import socket

BIG_ENDIAN = 'big'

LITTLE_ENDIAN = 'little'

ETH_P_ALL = 0x3

ETH_P_IP = 0x0800

ETH_P_ARP = 0x0806

ETH_P_RARP = 0x8035

ETH_P_IPV6 = 0x086dd

ETH_TYPE_MAP = {

ETH_P_IP: 'IP',

ETH_P_ARP: 'ARP',

ETH_P_RARP: 'RARP',

ETH_P_IPV6: 'IPv6'

}

class MACAddress:

def __init__(self, addr: int):

self.addr = addr

def __str__(self):

return ':'.join('{:02x}'.format(a) for a in self.addr.to_bytes(6, BIG_ENDIAN))

def __repr__(self):

return self.__str__()

class EthernetHeader:

def __init__(self, dst_mac, src_mac):

self.dst_mac = dst_mac

self.src_mac = src_mac

def describe(self):

return {

'src_mac': MACAddress(self.src_mac),

'dst_mac': MACAddress(self.dst_mac)

}

class EthernetIIHeader(EthernetHeader):

def __init__(self, dst_mac, src_mac):

super().__init__(dst_mac, src_mac)

self.eth_type = 0

def describe(self):

dct = super().describe()

dct['eth_type'] = self._describe_eth_type(self.eth_type)

return dct

@staticmethod

def _describe_eth_type(eth_type):

if eth_type in ETH_TYPE_MAP:

return ETH_TYPE_MAP[eth_type]

return 'Unknown protocol{}'.format(eth_type)

class Ethernet802_3Header(EthernetHeader):

def __init__(self, dst_mac, src_mac):

super().__init__(dst_mac, src_mac)

self.length = 0

self.llc = 0

self.snap = 0

def describe(self):

dct = super().describe()

dct['length'] = self.length

dct['llc'] = self.llc

dct['snap'] = self.snap

return dct

def unpack(packet):

dst_mac = int.from_bytes(packet[:6], BIG_ENDIAN)

src_mac = int.from_bytes(packet[6:12], BIG_ENDIAN)

type_or_length = int.from_bytes(packet[12:14], BIG_ENDIAN)

if type_or_length < 1500:

hdr = Ethernet802_3Header(dst_mac, src_mac)

hdr.length = type_or_length

hdr.llc = int.from_bytes(packet[14:17], BIG_ENDIAN)

hdr.snap = int.from_bytes(packet[17:22], BIG_ENDIAN)

return hdr, packet[22:]

elif type_or_length >= 1536:

hdr = EthernetIIHeader(dst_mac, src_mac)

hdr.eth_type = type_or_length

return hdr, packet[14:]

else:

raise ValueError(type_or_length)

def main():

raw_sock = socket.socket(socket.PF_PACKET, socket.SOCK_RAW, socket.htons(ETH_P_ALL))

while True:

try:

packet, packet_info = raw_sock.recvfrom(1500)

eth_header, payload = unpack(packet)

print(eth_header.describe(), payload)

except KeyboardInterrupt:

break

except ValueError as e:

print('unpack failed', e)

if __name__ == '__main__':

main()

最后,用root权限运行抓包程序,可以看到屏幕上输出了解析后的Ethernet头部和未解析的载荷数据,如果有兴趣的话可以按照协议标准继续解析载荷数据中的上层协议。

{'src_mac': 50:fa:84:aa:aa:aa, 'dst_mac': ac:d1:b8:aa:aa:aa, 'eth_type': 'IP'} b'E\x00\x00T\x0c\xfe@\x004\x01\x93*\xb4e1\x0c\xc0\xa8\x00g\x00\x00\xb6\x83-\x8e\x00\x07\xa6\xb4c^\x00\x00\x00\x00G\x01\x0c\x00\x00\x00\x00\x00\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1a\x1b\x1c\x1d\x1e\x1f !"#$%&\'()*+,-./01234567'

...

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 好的,可以使用Python中的第三方库Requests和BeautifulSoup4来实现网站抓包。以下是示例代码: ```python import requests from bs4 import BeautifulSoup # 模拟浏览器发送网络请求 url = "https://example.com" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36" } response = requests.get(url, headers=headers) # 解析HTML并提取数据 soup = BeautifulSoup(response.text, "html.parser") links = soup.find_all("a") # 获取所有的链接 for link in links: print(link.get("href")) ``` 以上代码会请求URL为https://example.com的网站,并抓取其中所有的链接。你可以根据自己的需求修改代码。 ### 回答2: 当使用Python网站抓包时,可以使用`requests`和`beautifulsoup`这两个常见的库来实现。 首先,需要安装`requests`和`beautifulsoup`库。可以使用以下命令进安装: ``` pip install requests pip install beautifulsoup4 ``` 接下来,可以使用`requests`库发送HTTP请求来获取网页的内容。例如,可以使用`get`方法从给定的URL获取网页的内容: ```python import requests url = "http://example.com" response = requests.get(url) content = response.text print(content) ``` 此时,`content`变量将包含网页的内容。 如果需要解析HTML内容,可以使用`beautifulsoup`库。例如,可以找到所有的链接标签`<a>`并打印它们的文本和URL: ```python from bs4 import BeautifulSoup soup = BeautifulSoup(content, "html.parser") links = soup.find_all("a") for link in links: text = link.text url = link["href"] print(text, url) ``` 这样,就可以完成简单的网站抓包,并输出所需的信息。 要进一步抓取网站的具体数据,可能需要了解网站的结构和使用一些特定的技术。例如,如果需要登录网站并抓取需要身份验证的内容,则需要使用会话(session)对象来管理会话状态。 总而言之,使用Python可以很容易地编一个网站抓包程序,但具体步骤和技术取决于所需抓取的网站和数据。以上示例仅提供了一个入门的思路,希望对你有所帮助。 ### 回答3: 当然可以帮你用Python一个简单的网站抓包工具。 首先,我们需要安装Python的requests库,它可以方便地进HTTP请求和响应操作。可以使用以下命令安装requests库: ``` pip install requests ``` 然后,我们可以使用requests库发送HTTP请求并获取响应。具体步骤如下: 1. 首先,导入requests库: ```python import requests ``` 2. 使用requests库发送GET请求,可以使用`requests.get()`方法。例如,要抓取百度首页的内容,可以使用以下代码: ```python response = requests.get('https://www.baidu.com') ``` 3. 获取响应的内容,可以使用`response.text`属性。例如,要获取百度首页的HTML文档,可以使用以下代码: ```python html = response.text print(html) ``` 4. 如果需要发送POST请求,可以使用`requests.post()`方法。例如,要发送一个POST请求,并提交表单数据,可以使用以下代码: ```python data = {'username': 'testuser', 'password': '123456'} response = requests.post('https://www.example.com/login', data=data) ``` 5. 最后,根据自己的需求对抓取到的内容进处理和分析。 这只是一个简单的示例,并不能涵盖所有的抓包需求。如果你需要更高级的功能,例如抓取AJAX请求、提取特定的数据等,可能需要借助其他的库或者编更为复杂的代码。 希望这些内容能对你编网站抓包工具有所帮助。如果有其他问题,请随时追问。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值