基于深度学习模型（1D CNN）实现钓鱼网站检测

最新推荐文章于 2025-04-09 08:37:27 发布

GeraldJones

最新推荐文章于 2025-04-09 08:37:27 发布

阅读量9.5k

点赞数 17

分类专栏： Python # 深度学习文章标签：深度学习人工智能 1D CNN 钓鱼网站检测

本文链接：https://blog.csdn.net/Gerald_Jones/article/details/121761816

版权

Python 同时被 2 个专栏收录

6 篇文章

订阅专栏

深度学习

5 篇文章

订阅专栏

一、运行环境

windows10系统
虚拟环境：Anaconda3
python版本：3.8.8
框架工具：TensorFlow（tensorflow-gpu2.7.0)
编译工具IDE：VsCode
环境安装教程：

二、选题背景

2.1 题目

基于深度学习的钓鱼网站检测

2.2 项目简介

本项目提出了一种基于深度学习的方法，实现对钓鱼网站的高精度检测。所提出的方法利用卷积神经网络（CNN）进行高精度分类，以区分真正的网站和钓鱼网站。

2.3 项目的成果

我们使用具有6,157个真实网站和4,898个钓鱼网站获得的数据集来评估这些模型。通过实验验证，验证集的准确率可达98.2%。

三、知识背景

3.1 卷积神经网络（CNN）

CNN属于人工神经网络家族，它是受生物神经网络特性启发的计算模型。经常应用于图像识别、自然语言处理、灾难气候预测等应用场景中。

卷积层：一般情况下，为了能从神经网络中的每一小块得到更多的抽象特征，卷积层的单元矩阵比上一层的单元矩阵更深。卷积层主要作用于提取最优特征。

池化层：池化层的单元矩阵不会比上一层的单元矩阵更深，但是它能在宽度和高度上缩小矩阵的大小，也可以达到减少整个神经网络中参数的目的。池化层作用于减少卷积层特征的维度。

全连接层：通过卷积层和池化层得到的矩阵特征结果，通过构建几个全连接层，实现分类的效果。

softmax层：通过softmax层，可以得到输出样例所属种类的概率分布。

Note1：由于卷积操作是特殊的线性变化，所以将卷积层结果传递到池化层前，都需要经过去线性化处理，常用的是tf.nn.relu.

Note2:CNN的性能一般受层数和滤波器（内核）数量的影响，在CNN的更深层中提取的抽象特征越来越多，因此，所需的层数取决于被分析数据的复杂性和非线性。此外，每个阶段的过滤器数量决定了提取的特征数量。计算复杂性随着层数和滤波器数量的增加而增加。

3.2 一维卷积神经网络（1D CNN）

1D CNN 可以很好地应用于传感器数据的时间序列分析。例如：时间延迟网络 Time Delay Neural Network；同样也可以很好地用于分析具有固定长度周期的信号数据。例如：音频信号，WaveNet。此外，它还能应用于自然语言处理的任务（由于单词的接近性可能并不总是一个可训练模式的好指标，因此 LSTM 网络在 NLP 中的应用更有前途）

1D CNN在包含矢量化的数据集方面也比较适用，这类数据集一般是用来预测某一分类结果，本项目的数据集很符合1D CNN在此方面的应用，因此采用的方式是1D CNN模型。

下图示是conv1D和conv2D的区别，很形象：

3.3 项目的模型

项目的CNN架构如下：两个卷积层、两个最大池化层、三个全连接层、一个输出层。

其中在卷积层利用ReLU(Rectified Linear Units)激活函数：
$φ (z) = m a x (0, z)$
RuLU激活函数能够在输入和0之间求最大值的函数。ReLU函数能有助于缓解消失和爆炸梯度问题。

项目的1D CNN模型

四、实验

4.1 框架

项目的模型是通过Python来实现，并使用了TensorFlow自带的Kears库，同时也是用了Numpy、Pandas、Scikit Learn等库。

其中Keras是本项目构建模型的主要的库，这里简要介绍一下Keras：Keras是由纯python编写的基于theano/tensorflow的深度学习框架。

适用范围：

简易和快速的原型设计（keras具有高度模块化，极简，和可扩充特性）
支持CNN和RNN，或二者的结合。
无缝CPU和GPU切换。

优点：

用户友好：Keras遵循减少认知困难的最佳实践：Keras提供一致而简洁的API，能够极大减少一般应用下用户的工作量，同时，Keras提供清晰和具有实践意义的bug反馈。
模块性：模型可理解为一个层的序列或数据的运算图，完全可配置的模块可以用最少的代价自由组合在一起。具体而言，网络层、损失函数、优化器、初始化策略、激活函数、正则化方法都是独立的模块，你可以使用它们来构建自己的模型。
易扩展性：添加新模块容易，只需仿照现有的模块编写新的类或函数即可。创建新模块的便利性使得Keras更适合于先进的研究工作。
与Python协作：Keras没有单独的模型配置文件类型（作为对比，caffe有），模型由python代码描述，使其更紧凑和更易debug，并提供了扩展的便利性。

Keras的模块结构

在这里插入图片描述

Keras搭建一个神经网络

在这里插入图片描述

4.2 数据集

项目的数据集采用UCI网站的基础数据集，kaggle上也有相应的数据集。数据集包括从4,898个钓鱼网站和6,157个合法网站获得的11,055个实例。

下图为数据集：

在这里插入图片描述

数据集中具体指标的属性如下表所示：一共有30个属性，

在这里插入图片描述

此数据集的标签释义：

在这里插入图片描述

4.3 程序设计

整体代码的结构示意图如下：

在这里插入图片描述

主要包括几个函数：

gendatas()：对原始数据集的处理（归一化、拆分、reshape），返回训练模型用的数据和标签、验证模型的数据和标签。

create_model()：使用Keras库创建模型，根据模型搭建流程，依次是卷积层-1、最大池化层-1、卷积层-2、最大池化层-2、Flatten层-1、Dropout层-1、全连接层-1、全连接层-2、输出层-1。

train_model()：实现模型权重的保存，便于下次可以直接调用模型进行训练；实现TensorBoard运行log的保存，便于TensorBoard可视化；实现模型的训练。

model的summary如下：

在这里插入图片描述

主函数：

if __name__ == "__main__":
    stamp = datetime.now().strftime("%Y%m%d-%H-%M-%S")
    model_file_path = os.path.join(CURRENT_DIR, "models\\pWeb-cnn1D-"+stamp)
    log_file_path = os.path.join(CURRENT_DIR, "logs\\pWeb-cnn1D-"+stamp)
   
    inputs_train, outputs_train, inputs_test, outputs_test = gen_datas(train, test)

    # 新建网络模型
    model = create_model()
    # 保存网络模型
    display_cnn1D_structure(model, os.path.join(CURRENT_DIR, "images\\1206cnn1D-structure.png"))
    # 训练网络模型：只保留权重
    train_model(model, inputs_train, outputs_train, inputs_test, outputs_test, model_file_path, log_file_path)
    # 保存模型
    # model_path = os.path.join(CURRENT_DIR, "models")
    
    # 测试集验证
    # 验证其中一个数据
    # test_phWeb = tf.convert_to_tensor([inputs_test[0]])
    # pre = model.predict(test_phWeb)
    # # 输出loss 和 accuracy
    # pre = tf.math.argmax(pre, 1)
    # print("prediction:{}".format(pre))
    
    # 验证数据集
    # pre = prediction(model, model_path, inputs_test)

数据处理函数：

def gen_datas(train, test):
    """生成数据
    参数:
        train: 原始训练数据集
        test: 原始验证数据集
    返回:
        X_train_r: 处理后训练数据集
        y_train: 处理后训练标签
        X_test_r: 处理后验证数据集
        y_test: 处理后验证标签
    """

    label_encoder_train = LabelEncoder().fit(train.Result)
    labels_train = label_encoder_train.transform(train.Result)
    label_encoder_test = LabelEncoder().fit(test.Result)
    labels_test = label_encoder_test.transform(test.Result)    
    classes = list(label_encoder_train.classes_)
    # classes_test = list(label_encoder_test.classes_)

    train = train.drop('Result', axis=1)
    test = test.drop('Result', axis=1)
    
    # 标签的种类 = NB_CLASS
    numb_class = len(classes)
    # 数据的归一化处理
    scaled_train = data_scaler(train)

    # 同一文件内数据集：10%作为测试集，90%作为训练集
    # random_state：随机数种子，和random中的seed种子一样，保证每次抽样到的数据一样，便于调试
    sss = StratifiedShuffleSplit(test_size=0.1, random_state=23)
    for train_index, test_index in sss.split(scaled_train, labels_train):
        X_train, X_test = scaled_train[train_index], scaled_train[test_index]
        y_train, y_test = labels_train[train_index], labels_train[test_index]

    # 不同文件作为训练集和验证集
    # y_train = labels_train
    # X_train = data_scaler(train)
    # y_test = labels_test
    # X_test = data_scaler(test)

    # reshape train data 
    # reshape 30*1
    # 也可以reshape 10*3
    X_train_r = np.zeros((len(X_train), NB_FEATURES, 1))
    X_train_r[:, :, 0] = X_train[:, :NB_FEATURES]
    # X_train_r[:, :, 1] = X_train[:, NB_PER_LAYER: NB_PER_LAYER * 2]
    # X_train_r[:, :, 2] = X_train[:, NB_PER_LAYER * 2:]

    # reshape test data
    X_test_r = np.zeros((len(X_test), NB_FEATURES, 1))
    X_test_r[:, :, 0] = X_test[:, :NB_FEATURES]
    # X_test_r[:, :, 1] = X_test[:, NB_PER_LAYER: NB_PER_LAYER * 2]
    # X_test_r[:, :, 2] = X_test[:, NB_PER_LAYER * 2:]

    y_train = np_utils.to_categorical(y_train, NB_CLASS)
    y_test = np_utils.to_categorical(y_test, NB_CLASS)

    return X_train_r, y_train, X_test_r, y_test

优化函数：

def compile_model(model):
    """神经网络参数配置
    参数:
        model: 神经网络实例
    返回:
        无
    """
    # 使用随机梯度下降优化器
    sgd = SGD(lr=0.01, nesterov=True, decay=1e-6, momentum=0.9)
    model.compile(loss='categorical_crossentropy',optimizer=sgd,metrics=['accuracy'])

创建模型函数：

def create_model():
    """使用keras新建神经网络
    参数:
        无
    返回:
        model: 神经网络实例
    """
    model = tf.keras.Sequential(name = "phWeb-cnn1D")
    # 卷积层-1
    model.add(
        layers.Conv1D(64, 
        kernel_size = 10,
        padding = 'same', 
        activation='relu', 
        input_shape = (NB_FEATURES, 1), # 输入模型30*1        
        name="conv-1"
        )
    )    
    # 池化层-1
    model.add(
        layers.MaxPool1D(pool_size=2, 
        strides=2,
        name="max-pooling-1"
        )
    )
    # 卷积层-2
    model.add(
        layers.Conv1D(64, 
        kernel_size = 5,
        padding = 'same',  
        activation='relu',     
        name="conv-2"
        )
    ) 
    # 池化层-2
    model.add(
        layers.MaxPool1D(pool_size=2, 
        strides=2,
        name="max-pooling-2"
        )
    )
    # 激活层-1
    # model.add(
    #     layers.Activation('relu', 
    #     name = "activation-1")
    # )
    # 全连接层-1
    model.add(layers.Flatten(name="fullc-1"))
    # DropOut层-1
    model.add(
        layers.Dropout(rate = 0.4, 
        name = "dropout-1")
    )
    # 全连接层-2
    model.add(
        layers.Dense(8,
        activation='relu',
        name="fullc-2")
    )
    # 全连接层-3
    model.add(
        layers.Dense(4,
        activation='relu',
        name="fullc-3")
    )    
    # 全连接层-4
    model.add(
        layers.Dense(NB_CLASS,
        activation='softmax', 
        name="output-1" 
        )
    )

    # 配置损失计算及优化器
    compile_model(model)
    return model

模型训练函数：

def train_model(model, inputs, outputs, inputs_test, outputs_test, model_path, log_path):
    """训练神经网络
    参数:
        model: 神经网络实例
        inputs: 输入数据
        outputs: 输出数据
        model_path: 模型文件路径
        log_path: 日志文件路径
    返回:
        无
    """
    # 回调函数
    ckpt_callback = callback_only_params(model_path)
    # tensorboard回调
    tensorboard_callback = tb_callback(log_path)
   # 保存参数
    model.save_weights(model_path.format(epoch=0))

    numb_epochs = 300
    model.fit(
        inputs, 
        outputs,
        epochs=numb_epochs, 
        validation_data=(inputs_test, outputs_test), 
        batch_size=16, 
        callbacks=[ckpt_callback, tensorboard_callback]
    )