基于textCNN模型的XSS攻击检测

键盘侠伍十七

已于 2024-03-07 11:59:00 修改

阅读量1k

点赞数 23

文章标签：深度学习 xss攻击检测 textCNN 文本分类

于 2024-03-07 11:45:49 首次发布

本文链接：https://blog.csdn.net/weixin_43178927/article/details/136529528

版权

使用TextCNN（Convolutional Neural Network for Text Classification）模型对XSS（Cross-Site Scripting）攻击进行检测的详细步骤、原理、代码如下：

原理

TextCNN是一种基于卷积神经网络（CNN）用于文本分类任务的模型，其主要特点是利用一维卷积层捕获局部特征，并通过池化层提取最重要的特征。在XSS攻击检测场景中，TextCNN可以学习并识别出攻击payload中的关键模式和特征。

词嵌入：首先，将原始的文本数据（如URL、HTML代码片段等）转换为词嵌入向量表示，常见的方法是使用预训练好的词向量模型如Word2Vec或GloVe。
卷积操作：应用多个不同宽度的一维卷积核对词嵌入序列进行卷积运算，每个卷积核会在输入序列上滑动，计算局部区域内的特征映射。
激活函数：通常在卷积层后添加ReLU等激活函数，引入非线性变换，提高模型表达能力。
最大池化：通过最大池化层获取每个滤波器下最显著的特征，使得模型对位置信息不敏感，且能够捕捉到文本中的关键模式。
全连接层与分类：将所有滤波器的最大池化输出拼接在一起，送入全连接层进行进一步的特征融合，然后通过一个softmax层或sigmoid层（对于二分类问题）进行分类预测，判断输入文本是否包含XSS攻击。

步骤

数据预处理：收集和标注XSS攻击样本和正常样本，清洗文本数据，去除无关字符和符号，转化为适合模型处理的形式。
构建词典与词嵌入：根据语料库构建词汇表，对每个词语赋予唯一的ID，然后将文本转化为词ID序列，或者直接使用预训练词嵌入初始化输入层。
构建TextCNN模型：按照上述原理搭建TextCNN结构，设置好卷积核的数量、大小以及全连接层参数等。
训练模型：将预处理后的数据集划分为训练集、验证集和测试集，用训练集训练TextCNN模型，通过验证集调整超参数（包括学习率、正则化系数等），确保模型泛化性能。
评估与优化：在测试集上评估模型性能，根据结果调整模型架构或训练策略，直至模型达到满意的表现。
部署应用：将训练好的模型部署到实际应用环境中，对实时流量中的文本内容进行XSS攻击检测。

难点及解决方法

类别不平衡：XSS攻击样本相较于正常样本可能偏少，导致模型倾向于预测多数类。解决方法是采用重采样策略（如过采样、欠采样或SMOTE等）平衡两类样本的比例。
语义理解：XSS攻击往往具有多种形式和变种，模型需具备较强的语义理解能力。解决方案是在模型结构上创新，或者引入上下文信息以捕捉复杂模式。
泛化能力：避免模型过度拟合训练数据，不能很好地泛化到未见过的攻击方式。通过正则化、dropout、早停法以及更多的真实场景测试数据来改善。

总之，优化TextCNN用于XSS攻击检测的关键在于数据准备、模型结构设计、超参数调优以及针对性地处理实际应用中的难点问题。

实现代码及运行效果

导入必要的库

import numpy as np  # 用于科学计算的高效数组操作库
import pandas as pd  # 用于数据处理和数据分析的库
import torch  # 用于深度学习的库
from tqdm import tqdm  # 用于显示进度条的库

从指定路径读取CSV文件
参数:
‘/kaggle/input/cross-site-scripting-xss-dataset-for-deep-learning/XSS_dataset.csv’: 文件路径
index_col = 0: 设置第一列为索引列
返回值:
df: 读取的DataFrame对象

df = pd.read_csv('/kaggle/input/cross-site-scripting-xss-dataset-for-deep-learning/XSS_dataset.csv', index_col = 0)

# 查看数据集的前几行，以便对数据有一个初步了解
df.head()

	Sentence	Label
0	<li><a href="/wiki/File:Socrates.png" class="i...	0
1	<tt οnmοuseοver="alert(1)">test</tt>	1
2	\t </span> <span class="reference-text">Steeri...	0
3	\t </span> <span class="reference-text"><cite ...	0
4	\t </span>. <a href="/wiki/Digital_object_iden...	0

# 计算训练集和测试集的分割点
split_point = int(len(df) * 0.8)

# 根据分割点将数据集分割为训练集和测试集
train_df = df[:split_point]
test_df = df[split_point:]

# 输出训练集
train_df

	Sentence	Label
0	<li><a href="/wiki/File:Socrates.png" class="i...	0
1	<tt οnmοuseοver="alert(1)">test</tt>	1
2	\t </span> <span class="reference-text">Steeri...	0
3	\t </span> <span class="reference-text"><cite ...	0
4	\t </span>. <a href="/wiki/Digital_object_iden...	0
...	...	...
10943	\t </span> </li>	0
10944	<li><a href="/wiki/William_Whewell" title="Wil...	0
10945	<li><a href="/wiki/Niklas_Luhmann" title="Nikl...	0
10946	<sub οnmοusedοwn="alert(1)">test</sub>	1
10947	<h1 onpointerleave=alert(1)>XSS</h1>	1

10948 rows × 2 columns

将字符串数据转换为字符索引列表，仅保留指定字母表内的字符。

参数:
- data: 输入的字符串数据。
- max_len: 输出列表的最大长度。

返回值:
- 返回一个列表，包含输入字符串中属于指定字母表内字符的索引，列表长度不超过max_len。

def data2char_index(data, max_len):
    alphabet = " abcdefghijklmnopqrstuvwxyz0123456789-,;.!?:'\"/\\|_@#$%^&*~`+-=<>()[]{}"  # 定义字母表
    mat = []
    for ch in data:  # 遍历输入数据
        if ch not in alphabet:
            continue  # 忽略字母表外的字符
        mat.append(alphabet.index(ch))  # 将字符转换为索引并添加到结果列表
    # 调整结果列表长度以满足max_len要求
    if len(mat) < max_len:
        mat += [0] * (max_len - len(mat))
    elif len(mat) > max_len:
        mat = mat[:max_len]
    return mat

class Dataset(torch.utils.data.Dataset):
    """
    自定义数据集类，继承自torch.utils.data.Dataset。
    
    参数:
    - df: pandas.DataFrame对象，包含Sentence和Label两列。
    - max_len: int，数据集中句子的最大长度。
    
    方法:
    - __init__(self, df, max_len): 构造函数，初始化数据集。
    - __len__(self): 返回数据集的大小。
    - __getitem__(self, index): 根据索引获取数据集中的项。
    """
    def __init__(self, df, max_len) -> None:
        self.df = df  # DataFrame对象，存储数据
        self.max_len = max_len  # 数据中句子的最大长度

    def __len__(self):
        """
        返回数据集中的样本数量。
        
        返回:
        - int: 数据集大小。
        """
        return len(self.df)  # 返回DataFrame的行数

    def __getitem__(self, index):
        """
        根据索引获取数据集中的一个样本。
        
        参数:
        - index: int，要获取的样本的索引。
        
        返回:
        - tuple: 包含两个元素的元组，第一个元素为句子的tensor表示，第二个元素为标签的tensor。
        """
        sentence = self.df['Sentence'].values[index]  # 获取指定索引的句子
        label = self.df['Label'].values[index]  # 获取指定索引的标签
        return torch.tensor(data2char_index(sentence, self.max_len)), torch.tensor(label)  # 将句子和标签转换为tensor

# 创建训练集和测试集
trainDataset = Dataset(train_df, 1000)
testDataset = Dataset(test_df, 1000)

# 获取训练集和测试集的大小
len(trainDataset), len(testDataset)

(10948, 2738)

# 使用PyTorch的数据加载器（DataLoader）来创建训练集和测试集的生成器
# trainGenerator: 训练数据的生成器，批量大小为128，数据被打乱
# testGenerator: 测试数据的生成器，批量大小为128，数据也被打乱
trainGenerator = torch.utils.data.DataLoader(trainDataset, batch_size=128, shuffle=True)
testGenerator = torch.utils.data.DataLoader(testDataset, batch_size=128, shuffle=True)

# 遍历训练数据生成器的第一个批量，打印数据和标签的形状，然后中断循环
for data, label in trainGenerator:
    print(data.shape)  # 打印数据的形状
    print(label.shape)  # 打印标签的形状
    break

torch.Size([128, 1000])
torch.Size([128])

这段代码首先通过torch.utils.data.DataLoader创建了针对训练集和测试集的两个数据生成器（trainGenerator和testGenerator），它们都设定了批量大小为128并启用了数据打乱。之后，代码遍历训练数据生成器的第一个批量，并分别打印出该批量中数据和标签的形状。完成这些后，通过break语句终止循环。

# 这段代码定义了一个基于CNN的文本分类模型，包括嵌入层、卷积层、激活函数、最大池化、dropout和全连接层等组件。
class TextCNN(torch.nn.Module):
    """
    文本卷积神经网络模型。

    参数:
    - vocab_size: 词汇表大小，即单词的数量。
    - embedding_size: 嵌入层大小，表示每个单词嵌入的维度。
    - num_classes: 分类的类别数量。
    - kernel_sizes: 卷积核的大小列表，用于多个不同大小的卷积核。
    - num_kernels: 每个卷积核大小对应的卷积核数量。

    返回:
    - 无
    """
    def __init__(self, vocab_size, embedding_size, num_classes, kernel_sizes, num_kernels):
        super(TextCNN, self).__init__()
        self.embedding = torch.nn.Embedding(vocab_size, embedding_size)  # 嵌入层
        self.convs = torch.nn.ModuleList(
            [torch.nn.Conv2d(1, num_kernels, (K, embedding_size)) for K in kernel_sizes])  # 卷积层列表
        self.dropout = torch.nn.Dropout(0.5)  # Dropout层
        self.fc = torch.nn.Linear(len(kernel_sizes) * num_kernels, num_classes)  # 全连接层

    def forward(self, x):
        """
        前向传播函数。

        参数:
        - x: 输入的张量，代表待处理的文本序列。

        返回:
        - logit: 经过模型处理后得到的logit张量，用于分类。
        """
        x = self.embedding(x)  # 将文本序列嵌入到向量空间
        x = x.unsqueeze(1)  # 增加一个维度，以适应卷积层的要求
        x = [torch.nn.functional.relu(conv(x)).squeeze(3) for conv in self.convs]  # 对每个卷积核应用卷积和激活函数，并压缩维度
        x = [torch.nn.functional.max_pool1d(i, i.size(2)).squeeze(2) for i in x]  # 应用最大池化，进一步压缩维度
        x = torch.cat(x, 1)  # 将不同卷积核得到的结果连接起来
        x = self.dropout(x)  # 应用dropout防止过拟合
        logit = self.fc(x)  # 通过全连接层得到最终的logit
        return logit

model = TextCNN(vocab_size=70, embedding_size=64, num_classes=2, kernel_sizes=[3, 4, 5], num_kernels=128)
# 创建TextCNN模型实例
model(torch.tensor(data2char_index('hello world', 1000)).unsqueeze(0))
# 推理一个示例输入

tensor([[-0.6927, 0.5148]], grad_fn= AddmmBackward )

# 初始化优化器
# 参数model: 需要优化的模型
# 参数lr: 学习率，默认为0.001
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

# 初始化损失函数
# 适用于多分类任务
loss = torch.nn.CrossEntropyLoss()

# 设置训练轮数
epochs = 10

# 使用GPU进行训练
model = model.cuda()
for epoch in range(epochs):
    model.train()  # 将模型设置为训练模式
    for data, label in tqdm(trainGenerator):
        data = data.cuda()  # 将数据移动到GPU
        label = label.cuda()  # 将标签移动到GPU
        optimizer.zero_grad()  # 清除之前的梯度
        output = model(data)  # 通过模型进行前向传播
        l = loss(output, label)  # 计算损失
        l.backward()  # 反向传播计算梯度
        optimizer.step()  # 更新模型参数
    print(f'epoch: {epoch}, loss: {l}', end="")  # 打印当前epoch和对应的损失

    # 评估模型性能
    model.cuda()  # 确保模型在GPU上
    model.eval()  # 将模型设置为评估模式
    right_num = 0  # 初始化正确预测的数量
    for data, label in testGenerator:
        data = data.cuda()  # 将测试数据移动到GPU
        label = label.cuda()  # 将测试标签移动到GPU
        output = model(data)  # 通过模型进行前向传播
        right_num += (torch.argmax(output, dim=1) == label).sum().item()  # 计算正确预测的总数
    print(f"Test accuracy: {right_num / len(testDataset)}")  # 打印测试集的准确率

100%|██████████| 86/86 [1:00:54<00:00, 42.50s/it]
epoch: 0, loss: 0.04681345820426941Test accuracy: 0.9974433893352812
34%|███▎ | 29/86 [21:22<42:01, 44.23s/it]

评估

class Eval():
    """
    一个用于计算评估二分类模型性能的类。
    主要通过计算准确率(Accuracy)、精确度(Precision)和召回率(Recall)来评估模型。
    """
    def __init__(self):
        """
        初始化评估对象，设置各类别计数为0。
        """
        self.tp = 0  # 正确预测为正例的数目
        self.fp = 0  # 错误预测为正例的数目
        self.fn = 0  # 错误预测为负例的数目
        self.tn = 0  # 正确预测为负例的数目

    def add(self, pred, label):
        """
        根据预测结果和真实标签更新计数器。

        参数:
        pred -- 预测标签，取值为0或1。
        label -- 真实标签，取值为0或1。
        """
        # 根据预测和真实标签的组合，更新相应的计数器
        if pred == 1 and label == 1:
            self.tp += 1
        elif pred == 1 and label == 0:
            self.fp += 1
        elif pred == 0 and label == 1:
            self.fn += 1
        elif pred == 0 and label == 0:
            self.tn += 1

    def accuracy(self):
        """
        计算并返回模型的准确率。

        返回值:
        accuracy -- 模型的准确率，即正确预测的样本数占总样本数的比例。
        """
        return (self.tp + self.tn) / (self.tp + self.fp + self.fn + self.tn)

    def precision(self):
        """
        计算并返回模型的精确度。

        返回值:
        precision -- 模型的精确度，即正确预测为正例的样本数占预测为正例的样本总数的比例。
        """
        return self.tp / (self.tp + self.fp)

    def recall(self):
        """
        计算并返回模型的召回率。

        返回值:
        recall -- 模型的召回率，即正确预测为正例的样本数占实际为正例的样本总数的比例。
        """
        return self.tp / (self.tp + self.fn)

# 初始化评估器、将模型转移到cuda设备并设置为评估模式
eval = Eval()
model.cuda()
model.eval()

# 遍历测试数据集
for data, label in testGenerator:
    # 将数据转移到cuda设备
    data = data.cuda()
    label = label  # 这里不需要操作，保留原样
    # 通过模型预测并获取最大概率类别，然后转移到cpu上
    output = model(data).argmax(dim=1).cpu()
    # 对每个预测结果和真实标签进行评估
    for pred, l in zip(output, label):
        eval.add(pred, l)  # 添加预测结果和真实标签到评估器进行评估

# 打印评估结果：准确率、精确率、召回率
print(f"accuracy: {eval.accuracy()}")
print(f"precision: {eval.precision()}")
print(f"recall: {eval.recall()}")

accuracy: 0.9970781592403214
precision: 1.0
recall: 0.994546693933197

优化建议

优化TextCNN模型在XSS攻击检测中的性能，主要涉及以下几个方面：

数据增强与清洗

数据增强：由于安全相关的恶意样本可能相对较少，可以采用数据增强技术来增加训练样本的多样性，例如对已有的恶意样本进行随机插入、删除、替换等操作生成新的样本。
数据清洗：确保数据质量高且标签准确。对于噪声数据或不清晰的边界情况要进行清理或重新标注。

超参数调优

网格搜索或贝叶斯优化：使用GridSearchCV或Optuna等工具进行超参数调整，包括卷积核的数量、大小、步长、激活函数类型、学习率、批次大小、正则化系数等。
早停法（Early Stopping）：监控验证集上的损失或指标，在验证集性能不再提升时提前停止训练，防止过拟合。

特征工程与词嵌入优化

特征选择：考虑是否需要引入额外的特征，如URL长度、特殊字符数量等。
预训练词嵌入：使用领域相关的预训练词向量，或者微调通用预训练模型以适应特定任务。

模型结构改进

深度和宽度：尝试增加网络深度或宽度，看是否能提高模型表现。
注意力机制：结合注意力机制，让模型能够更关注文本中对XSS攻击有关键影响的部分。

键盘侠伍十七

关注

23
点赞
踩
21

收藏

觉得还不错? 一键收藏
打赏
0
评论
基于textCNN模型的XSS攻击检测

使用TextCNN（Convolutional Neural Network for Text Classification）模型对XSS（Cross-Site Scripting）攻击进行检测的详细步骤、原理、代码
复制链接

扫一扫