代码链接:https://github.com/binchen4110/RIPGeo
└── RIPGeo
├── datasets # 包含3个大规模的真实街道IP地理位置数据集。
│ |── New_York # 从纽约市收集的街道级IP地理定位数据集,包括91,808个IP地址。
│ |── Los_Angeles # 从洛杉矶收集的街道级IP地理定位数据集,包括92,804个IP地址。
│ |── Shanghai # 收集自上海的街道级IP地理定位数据集,包括126,258个IP地址。
├── lib # 包含模型(model)实现文件
│ |── layers.py # 注意力机制的代码。
│ |── model.py # RIPGeo的核心源代码。
│ |── sublayers.py # layer.py的支持文件。
│ |── utils.py # 辅助函数
├── asset # 包含运行模型时保存的检查点和日志
│ |── log # 包含运行模型时保存的日志
│ |── model # 包含运行模型时保存的检查点
├── preprocess.py # 预处理数据集并为模型运行执行IP聚类
├── main.py # 运行模型进行训练和测试
├── test.py #加载检查点,然后测试
└── README.md
一、导入各种模块和数据库
# Load data and IP clustering
import math
import random
import pandas as pd
import numpy as np
import argparse
from sklearn import preprocessing
from lib.utils import MaxMinScaler
加载数据和IP聚类,这些导入语句是为了引入在后续代码中可能会使用到的数学、随机数、数据处理等工具和库。
1、import math:导入 Python 的 math
模块,该模块提供了数学运算的函数。
2、import random:导入 Python 的 random
模块,该模块提供了生成伪随机数的函数。
3、import pandas as pd:导入 pandas
库,并将其简写为 pd
,用于处理和分析数据。
4、import numpy as np:导入 numpy
库,并将其简写为 np
,用于支持大量的维度数组和矩阵运算。
5、import argparse:导入 argparse
模块,用于解析命令行参数。
6、from sklearn import preprocessing:从 sklearn
库导入数据预处理模块 preprocessing
,用于数据预处理。
7、from lib.utils import MaxMinScaler:从自定义的 lib.utils
模块中导入 MaxMinScaler
类。这是一个简单的最大最小值归一化(Max-Min Scaling)的类,用于将数据缩放到指定的范围。
二、使用argparse
库创建了一个命令行解析器
parser = argparse.ArgumentParser()
parser.add_argument('--dataset', type=str, default='New_York', choices=["Shanghai", "New_York", "Los_Angeles"],
help='which dataset to use')
parser.add_argument('--train_test_ratio', type=float, default=0.8, help='landmark ratio')
parser.add_argument('--lm_ratio', type=float, default=0.7, help='landmark ratio')
parser.add_argument('--seed', type=int, default=1234)
opt = parser.parse_args()
print("Dataset: ", opt.dataset)
这部分代码的功能是通过命令行输入来配置脚本的行为。用户可以在运行脚本时通过命令行参数指定数据集名称、训练集测试集比例、地标比例以及随机数生成的种子等参数。解析后,这些参数将在脚本中被引用,从而影响程序的行为。
1、parser = argparse.ArgumentParser():创建一个ArgumentParser
对象,用于解析命令行参数。
2、parser.add_argument('--dataset', type=str, default='New_York', choices=["Shanghai", "New_York", "Los_Angeles"],help='which dataset to use'): 添加命令行参数。
3、parser.add_argument('--train_test_ratio', type=float, default=0.8, help='landmark ratio'):用于指定训练集和测试集的比例,默认值是 0.8
。
4、parser.add_argument('--lm_ratio', type=float, default=0.7, help='landmark ratio'):用于指定地标的比例,默认值是 0.7
。(训练集中地标landmark的占比)
5、parser.add_argument('--seed', type=int, default=1234): 用于指定随机数生成的种子,默认值是 1234
。
6、opt = parser.parse_args():解析命令行参数,并将解析结果存储在 opt
对象中。opt
对象将包含命令行传入的各个参数的值。
三、get_XY()
def get_XY(dataset):
data_path = "./datasets/{}/data.csv".format(dataset)
ip_path = './datasets/{}/ip.csv'.format(dataset)
trace_path = './datasets/{}/last_traceroute.csv'.format(dataset)
data_origin = pd.read_csv(data_path, encoding='gbk', low_memory=False)
ip_origin = pd.read_csv(ip_path, encoding='gbk', low_memory=False)
trace_origin = pd.read_csv(trace_path, encoding='gbk', low_memory=False)
data = pd.concat([data_origin, ip_origin, trace_origin], axis=1)
data.fillna({"isp": '0'}, inplace=True)
# labels
Y = data[['longitude', 'latitude']]
Y = np.array(Y)
# features
if dataset == "Shanghai": # Shanghai
# classification features
X_class = data[['orgname', 'asname', 'address', 'isp']]
scaler = preprocessing.OneHotEncoder(sparse=False)
X_class = scaler.fit_transform(X_class)
X_class1 = data['isp']
X_class1 = preprocessing.LabelEncoder().fit_transform(X_class1)
X_class1 = preprocessing.MinMaxScaler().fit_transform(np.array(X_class1).reshape((-1, 1)))
X_2 = data[['ip_split1', 'ip_split2', 'ip_split3', 'ip_split4']]
X_2 = preprocessing.MinMaxScaler().fit_transform(np.array(X_2))
X_3 = data[['aiwen_ping_delay_time', 'vp806_ping_delay_time', 'vp808_ping_delay_time', 'vp813_ping_delay_time']]
delay_scaler = MaxMinScaler()
delay_scaler.fit(X_3)
X_3 = delay_scaler.transform(X_3)
X_4 = data[['aiwen_tr_steps', 'vp806_tr_steps', 'vp808_tr_steps', 'vp813_tr_steps']]
step_scaler = MaxMinScaler()
step_scaler.fit(X_4)
X_4 = step_scaler.transform(X_4)
X_5 = data['asnumber']
X_5 = preprocessing.LabelEncoder().fit_transform(X_5)
X_5 = preprocessing.MinMaxScaler().fit_transform(np.array(X_5).reshape(-1, 1))
X_6 = data[
['aiwen_last1_delay', 'aiwen_last2_delay_total', 'aiwen_last3_delay_total', 'aiwen_last4_delay_total',
'vp806_last1_delay', 'vp806_last2_delay_total', 'vp806_last3_delay_total', 'vp806_last4_delay_total',
'vp808_last1_delay', 'vp808_last2_delay_total', 'vp808_last3_delay_total', 'vp808_last4_delay_total',
'vp813_last1_delay', 'vp813_last2_delay_total', 'vp813_last3_delay_total', 'vp813_last4_delay_total']]
X_6 = np.array(X_6)
X_6[X_6 <= 0] = 0
X_6 = preprocessing.MinMaxScaler().fit_transform(X_6)
X = np.concatenate([X_class1, X_class, X_2, X_3, X_4, X_5, X_6], axis=1) # dimension =51
elif dataset == "New_York" or "Los_Angeles": # New_York or Los_Angeles
X_class = data['isp']
X_class = preprocessing.LabelEncoder().fit_transform(X_class)
X_class = preprocessing.MinMaxScaler().fit_transform(np.array(X_class).reshape((-1, 1)))
X_2 = data[['ip_split1', 'ip_split2', 'ip_split3', 'ip_split4']]
X_2 = preprocessing.MinMaxScaler().fit_transform(np.array(X_2))
X_3 = data['as_mult_info']
X_3 = preprocessing.LabelEncoder().fit_transform(X_3)
X_3 = preprocessing.MinMaxScaler().fit_transform(np.array(X_3).reshape(-1, 1))
X_4 = data[['vp900_ping_delay_time', 'vp901_ping_delay_time', 'vp902_ping_delay_time', 'vp903_ping_delay_time']]
delay_scaler = MaxMinScaler()
delay_scaler.fit(X_4)
X_4 = delay_scaler.transform(X_4)
X_5 = data[['vp900_tr_steps', 'vp901_tr_steps', 'vp902_tr_steps', 'vp903_tr_steps']]
step_scaler = MaxMinScaler()
step_scaler.fit(X_5)
X_5 = step_scaler.transform(X_5)
X_6 = data[
['vp900_last1_delay', 'vp900_last2_delay_total', 'vp900_last3_delay_total', 'vp900_last4_delay_total',
'vp901_last1_delay', 'vp901_last2_delay_total', 'vp901_last3_delay_total', 'vp901_last4_delay_total',
'vp902_last1_delay', 'vp902_last2_delay_total', 'vp902_last3_delay_total', 'vp902_last4_delay_total',
'vp903_last1_delay', 'vp903_last2_delay_total', 'vp903_last3_delay_total', 'vp903_last4_delay_total']]
X_6 = np.array(X_6)
X_6[X_6 <= 0] = 0
X_6 = preprocessing.MinMaxScaler().fit_transform(X_6)
X = np.concatenate([X_2, X_class, X_3, X_4, X_5, X_6], axis=1) # dimension =30
return X, Y, np.array(trace_origin)
这个函数用于从指定数据集加载并预处理数据,返回用于训练的特征 (X
)、标签 (Y
) 以及原始的跟踪数据 (trace_origin
)。
分为几个部分展开描述:
1、加载数据并处理
data_path = "./datasets/{}/data.csv".format(dataset)
ip_path = './datasets/{}/ip.csv'.format(dataset)
trace_path = './datasets/{}/last_traceroute.csv'.format(dataset)
data_origin = pd.read_csv(data_path, encoding='gbk', low_memory=False)
ip_origin = pd.read_csv(ip_path, encoding='gbk', low_memory=False)
trace_origin = pd.read_csv(trace_path, encoding='gbk', low_memory=False)
data = pd.concat([data_origin, ip_origin, trace_origin], axis=1)
data.fillna({"isp": '0'}, inplace=True)
这部分代码主要是从三个文件(data.csv
、ip.csv
、last_traceroute.csv
)中加载数据,进行合并和预处理。
(1)data_path = "./datasets/{}/data.csv".format(dataset):构建包含数据文件路径的字符串,其中 {}
是一个占位符,将被 format(dataset)
中的 dataset
变量替代。
(2)ip_path = './datasets/{}/ip.csv'.format(dataset):构建包含 IP 地址文件路径的字符串。
(3)trace_path = './datasets/{}/last_traceroute.csv'.format(dataset):构建包含最后一次路由跟踪文件路径的字符串。
(4)data_origin = pd.read_csv(data_path, encoding='gbk', low_memory=False):使用 Pandas 库的 read_csv
函数从 data.csv
文件中读取数据。参数 encoding='gbk'
表示使用 gbk 编码读取文件,low_memory=False
表示禁用内存优化,以确保能够处理大型文件。
(5)ip_origin = pd.read_csv(ip_path, encoding='gbk', low_memory=False):从 ip.csv
文件中读取 IP 地址相关的数据。
(6)trace_origin = pd.read_csv(trace_path, encoding='gbk', low_memory=False):从 last_traceroute.csv
文件中读取最后一次路由跟踪的数据。
(7)data