RIPGeo代码理解（一）preprocess.py（预处理数据集并为模型运行执行IP聚类）

路由跳变

已于 2024-04-17 21:49:16 修改

阅读量971

点赞数 33

分类专栏： RIPGeo 文章标签： tcp/ip 聚类网络协议

于 2024-04-17 08:00:00 首次发布

本文链接：https://blog.csdn.net/sinat_41942180/article/details/137829873

版权

RIPGeo代码详细分析了预处理数据集的步骤，包括导入必要的库，创建命令行参数解析器，处理数据集的特征如IP地址、延迟、类别信息等。通过`get_XY()`函数，数据被分为特征`X`、标签`Y`以及原始数据`trace_origin`。此外，`find_nearest_router`用于确定最近路由器，`handle_common`处理公共路由器信息，`get_idx`进行数据集划分。代码实现了对不同城市数据集的预处理，为模型训练执行IP聚类。

摘要由CSDN通过智能技术生成

代码链接：https://github.com/binchen4110/RIPGeo

└── RIPGeo
├── datasets # 包含3个大规模的真实街道IP地理位置数据集。
│ |── New_York # 从纽约市收集的街道级IP地理定位数据集，包括91,808个IP地址。
│ |── Los_Angeles # 从洛杉矶收集的街道级IP地理定位数据集，包括92,804个IP地址。
│ |── Shanghai # 收集自上海的街道级IP地理定位数据集，包括126,258个IP地址。
├── lib # 包含模型（model）实现文件
│ |── layers.py # 注意力机制的代码。
│ |── model.py # RIPGeo的核心源代码。
│ |── sublayers.py # layer.py的支持文件。
│ |── utils.py # 辅助函数
├── asset # 包含运行模型时保存的检查点和日志
│ |── log # 包含运行模型时保存的日志
│ |── model # 包含运行模型时保存的检查点
├── preprocess.py # 预处理数据集并为模型运行执行IP聚类
├── main.py # 运行模型进行训练和测试
├── test.py #加载检查点，然后测试
└── README.md

一、导入各种模块和数据库

# Load data and IP clustering

import math
import random
import pandas as pd
import numpy as np
import argparse
from sklearn import preprocessing
from lib.utils import MaxMinScaler

加载数据和IP聚类，这些导入语句是为了引入在后续代码中可能会使用到的数学、随机数、数据处理等工具和库。

1、import math：导入 Python 的 math 模块，该模块提供了数学运算的函数。

2、import random：导入 Python 的 random 模块，该模块提供了生成伪随机数的函数。

3、import pandas as pd：导入 pandas 库，并将其简写为 pd，用于处理和分析数据。

4、import numpy as np：导入 numpy 库，并将其简写为 np，用于支持大量的维度数组和矩阵运算。

5、import argparse：导入 argparse 模块，用于解析命令行参数。

6、from sklearn import preprocessing：从 sklearn 库导入数据预处理模块 preprocessing，用于数据预处理。

7、from lib.utils import MaxMinScaler：从自定义的 lib.utils 模块中导入 MaxMinScaler 类。这是一个简单的最大最小值归一化（Max-Min Scaling）的类，用于将数据缩放到指定的范围。

二、使用`argparse`库创建了一个命令行解析器

parser = argparse.ArgumentParser()

parser.add_argument('--dataset', type=str, default='New_York', choices=["Shanghai", "New_York", "Los_Angeles"],
                    help='which dataset to use')
parser.add_argument('--train_test_ratio', type=float, default=0.8, help='landmark ratio')
parser.add_argument('--lm_ratio', type=float, default=0.7, help='landmark ratio')
parser.add_argument('--seed', type=int, default=1234)

opt = parser.parse_args()
print("Dataset: ", opt.dataset)

这部分代码的功能是通过命令行输入来配置脚本的行为。用户可以在运行脚本时通过命令行参数指定数据集名称、训练集测试集比例、地标比例以及随机数生成的种子等参数。解析后，这些参数将在脚本中被引用，从而影响程序的行为。

1、parser = argparse.ArgumentParser()：创建一个ArgumentParser对象，用于解析命令行参数。

2、parser.add_argument('--dataset', type=str, default='New_York', choices=["Shanghai", "New_York", "Los_Angeles"],help='which dataset to use')：添加命令行参数。

3、parser.add_argument('--train_test_ratio', type=float, default=0.8, help='landmark ratio')：用于指定训练集和测试集的比例，默认值是 0.8。

4、parser.add_argument('--lm_ratio', type=float, default=0.7, help='landmark ratio')：用于指定地标的比例，默认值是 0.7。（训练集中地标landmark的占比）

5、parser.add_argument('--seed', type=int, default=1234)：用于指定随机数生成的种子，默认值是 1234。

6、opt = parser.parse_args()：解析命令行参数，并将解析结果存储在 opt 对象中。opt 对象将包含命令行传入的各个参数的值。

三、get_XY()

def get_XY(dataset):
    data_path = "./datasets/{}/data.csv".format(dataset)
    ip_path = './datasets/{}/ip.csv'.format(dataset)
    trace_path = './datasets/{}/last_traceroute.csv'.format(dataset)

    data_origin = pd.read_csv(data_path, encoding='gbk', low_memory=False)
    ip_origin = pd.read_csv(ip_path, encoding='gbk', low_memory=False)
    trace_origin = pd.read_csv(trace_path, encoding='gbk', low_memory=False)

    data = pd.concat([data_origin, ip_origin, trace_origin], axis=1)
    data.fillna({"isp": '0'}, inplace=True)

    # labels
    Y = data[['longitude', 'latitude']]
    Y = np.array(Y)

    # features
    if dataset == "Shanghai":  # Shanghai
        # classification features
        X_class = data[['orgname', 'asname', 'address', 'isp']]
        scaler = preprocessing.OneHotEncoder(sparse=False)
        X_class = scaler.fit_transform(X_class)

        X_class1 = data['isp']
        X_class1 = preprocessing.LabelEncoder().fit_transform(X_class1)
        X_class1 = preprocessing.MinMaxScaler().fit_transform(np.array(X_class1).reshape((-1, 1)))

        X_2 = data[['ip_split1', 'ip_split2', 'ip_split3', 'ip_split4']]
        X_2 = preprocessing.MinMaxScaler().fit_transform(np.array(X_2))

        X_3 = data[['aiwen_ping_delay_time', 'vp806_ping_delay_time', 'vp808_ping_delay_time', 'vp813_ping_delay_time']]
        delay_scaler = MaxMinScaler()
        delay_scaler.fit(X_3)
        X_3 = delay_scaler.transform(X_3)

        X_4 = data[['aiwen_tr_steps', 'vp806_tr_steps', 'vp808_tr_steps', 'vp813_tr_steps']]
        step_scaler = MaxMinScaler()
        step_scaler.fit(X_4)
        X_4 = step_scaler.transform(X_4)

        X_5 = data['asnumber']
        X_5 = preprocessing.LabelEncoder().fit_transform(X_5)
        X_5 = preprocessing.MinMaxScaler().fit_transform(np.array(X_5).reshape(-1, 1))

        X_6 = data[
            ['aiwen_last1_delay', 'aiwen_last2_delay_total', 'aiwen_last3_delay_total', 'aiwen_last4_delay_total',
             'vp806_last1_delay', 'vp806_last2_delay_total', 'vp806_last3_delay_total', 'vp806_last4_delay_total',
             'vp808_last1_delay', 'vp808_last2_delay_total', 'vp808_last3_delay_total', 'vp808_last4_delay_total',
             'vp813_last1_delay', 'vp813_last2_delay_total', 'vp813_last3_delay_total', 'vp813_last4_delay_total']]
        X_6 = np.array(X_6)
        X_6[X_6 <= 0] = 0
        X_6 = preprocessing.MinMaxScaler().fit_transform(X_6)

        X = np.concatenate([X_class1, X_class, X_2, X_3, X_4, X_5, X_6], axis=1) # dimension =51

    elif dataset == "New_York" or "Los_Angeles":  # New_York or Los_Angeles
        X_class = data['isp']
        X_class = preprocessing.LabelEncoder().fit_transform(X_class)
        X_class = preprocessing.MinMaxScaler().fit_transform(np.array(X_class).reshape((-1, 1)))

        X_2 = data[['ip_split1', 'ip_split2', 'ip_split3', 'ip_split4']]
        X_2 = preprocessing.MinMaxScaler().fit_transform(np.array(X_2))

        X_3 = data['as_mult_info']
        X_3 = preprocessing.LabelEncoder().fit_transform(X_3)
        X_3 = preprocessing.MinMaxScaler().fit_transform(np.array(X_3).reshape(-1, 1))

        X_4 = data[['vp900_ping_delay_time', 'vp901_ping_delay_time', 'vp902_ping_delay_time', 'vp903_ping_delay_time']]
        delay_scaler = MaxMinScaler()
        delay_scaler.fit(X_4)
        X_4 = delay_scaler.transform(X_4)

        X_5 = data[['vp900_tr_steps', 'vp901_tr_steps', 'vp902_tr_steps', 'vp903_tr_steps']]
        step_scaler = MaxMinScaler()
        step_scaler.fit(X_5)
        X_5 = step_scaler.transform(X_5)

        X_6 = data[
            ['vp900_last1_delay', 'vp900_last2_delay_total', 'vp900_last3_delay_total', 'vp900_last4_delay_total',
             'vp901_last1_delay', 'vp901_last2_delay_total', 'vp901_last3_delay_total', 'vp901_last4_delay_total',
             'vp902_last1_delay', 'vp902_last2_delay_total', 'vp902_last3_delay_total', 'vp902_last4_delay_total',
             'vp903_last1_delay', 'vp903_last2_delay_total', 'vp903_last3_delay_total', 'vp903_last4_delay_total']]
        X_6 = np.array(X_6)
        X_6[X_6 <= 0] = 0
        X_6 = preprocessing.MinMaxScaler().fit_transform(X_6)

        X = np.concatenate([X_2, X_class, X_3, X_4, X_5, X_6], axis=1) # dimension =30

    return X, Y, np.array(trace_origin)

这个函数用于从指定数据集加载并预处理数据，返回用于训练的特征 (X)、标签 (Y) 以及原始的跟踪数据 (trace_origin)。

分为几个部分展开描述：

1、加载数据并处理

data_path = "./datasets/{}/data.csv".format(dataset)
ip_path = './datasets/{}/ip.csv'.format(dataset)
trace_path = './datasets/{}/last_traceroute.csv'.format(dataset)

data_origin = pd.read_csv(data_path, encoding='gbk', low_memory=False)
ip_origin = pd.read_csv(ip_path, encoding='gbk', low_memory=False)
trace_origin = pd.read_csv(trace_path, encoding='gbk', low_memory=False)

data = pd.concat([data_origin, ip_origin, trace_origin], axis=1)
data.fillna({"isp": '0'}, inplace=True)

这部分代码主要是从三个文件（data.csv、ip.csv、last_traceroute.csv）中加载数据，进行合并和预处理。

（1）data_path = "./datasets/{}/data.csv".format(dataset)：构建包含数据文件路径的字符串，其中 {} 是一个占位符，将被 format(dataset) 中的 dataset 变量替代。

（2）ip_path = './datasets/{}/ip.csv'.format(dataset)：构建包含 IP 地址文件路径的字符串。

（3）trace_path = './datasets/{}/last_traceroute.csv'.format(dataset)：构建包含最后一次路由跟踪文件路径的字符串。

（4）data_origin = pd.read_csv(data_path, encoding='gbk', low_memory=False)：使用 Pandas 库的 read_csv 函数从 data.csv 文件中读取数据。参数 encoding='gbk' 表示使用 gbk 编码读取文件，low_memory=False 表示禁用内存优化，以确保能够处理大型文件。

（5）ip_origin = pd.read_csv(ip_path, encoding='gbk', low_memory=False)：从 ip.csv 文件中读取 IP 地址相关的数据。

（6）trace_origin = pd.read_csv(trace_path, encoding='gbk', low_memory=False)：从 last_traceroute.csv 文件中读取最后一次路由跟踪的数据。

（7）data