【工作复盘3】2025年4月9日

最新推荐文章于 2025-05-23 10:18:27 发布

西西阿西哥

最新推荐文章于 2025-05-23 10:18:27 发布

阅读量811

点赞数 8

分类专栏：工作复盘文章标签：日记人工智能

本文链接：https://blog.csdn.net/weixin_39280437/article/details/147106677

版权

3 篇文章

订阅专栏

今天主要关注Datagram2Token Traffic Representation的理解和拆解：

核心概念：
BURST 是指在一个网络流（flow）中，按照传输方向（源→目的或目的→源）连续出现的数据包集合。
理解到的关键点：
- 同一个五元组（5-tuple）定义一个流（flow）。
- 在一个流中，按照数据包的方向连续性进行分段，形成多个 BURST。
- 方向发生切换时，即开始一个新的 BURST。
- 这类似于“一问一答”的对话结构 —— 一方说话直到另一方回应。
实现层面：
- 基于 PyShark 撰写了一个 Python 脚本，可以从 .pcap 文件中：
  - 提取每个流（5-tuple 区分）；
  - 识别每个流中的 BURST（基于方向变化）；
  - 输出每个 BURST 的方向、时间、包数量等信息。

核心目标：
将 BURST 转换为 Transformer 可接受的 token 序列，用于预训练。
关键步骤梳理：
1. 提取 BURST 中的 payload 字节流；
2. 将字节转换为十六进制表示；
3. 采用 bi-gram 编码，每两个字节合成一个 16-bit 的整数（范围 0–65535）；
4. 使用 Byte-Pair Encoding（BPE） 构建 token 词典（最大大小为 65536）；
5. 添加特殊 token：[CLS], [SEP], [PAD], [MASK]；
6. 将 BURST 均分为两个子片段 sub-BURST A 和 sub-BURST B，用于 SBP（Sub-BURST Pair）任务。
理解要点：
- 这一步相当于将网络数据流“语言化”，让模型以类 NLP 的方式学习流量语义。
- [CLS] 表示整个序列的摘要，[SEP] 分割两个 sub-BURST，Segment Embedding 用于区分 AB 段落。