学习笔记(十五):RNN识别WebShell

1.使用ADFA-LD数据集,逐行读取,并记录系统调用序号的最大值。

max_sequences_len=300
max_sys_call=0

def load_one_flle(filename):
    global max_sys_call
    x=[]
    with open(filename) as f:
        line=f.readline()
        line=line.strip('\n')
        line=line.split(' ')
        for v in line:
            if len(v) > 0:
                x.append(int(v))
                if int(v) > max_sys_call:
                    max_sys_call=int(v)
    return x

加载正常系统调用序列,并标记为0

def load_adfa_training_files(rootdir):
    x=[]
    y=[]
    list = os.listdir(rootdir)
    for i in range(0, len(list)):
        path = os.path.join(rootdir, list[i])
        if os.path.isfile(path):
            x.append(load_one_flle(path))
            y.append(0)
    return x,y

加载WebShell运行下的系统调用序列,并标记为1

def load_adfa_webshell_files(rootdir):
    x=[]
    y=[]
    allfile=dirlist(rootdir,[])
    for file in allfile:
        if re.match(r"../data/ADFA-LD/Attack_Data_Master/Web_Shell_\d+/UAD-W*",file):
            x.append(load_one_flle(file))
            y.append(1)
    return x,y

2.用RNN训练

def do_rnn(trainX, testX, trainY, testY):
    global max_sequences_len
    global max_sys_call

    trainX = pad_sequences(trainX, maxlen=max_sequences_len, value=0.)
    testX = pad_sequences(testX, maxlen=max_sequences_len, value=0.)
    trainY = to_categorical(trainY, nb_classes=2)
    testY_old=testY
    testY = to_categorical(testY, nb_classes=2)

    print "GET max_sequences_len embedding %d" % max_sequences_len
    print "GET max_sys_call embedding %d" % max_sys_call

    net = tflearn.input_data([None, max_sequences_len])
    net = tflearn.embedding(net, input_dim=max_sys_call+1, output_dim=128)
    net = tflearn.lstm(net, 128, dropout=0.3)
    net = tflearn.fully_connected(net, 2, activation='softmax')
    net = tflearn.regression(net, optimizer='adam', learning_rate=0.1,
                             loss='categorical_crossentropy')


    model = tflearn.DNN(net, tensorboard_verbose=3)
    model.fit(trainX, trainY, validation_set=(testX, testY), show_metric=True,
             batch_size=32,run_id="kkk")

    y_predict_list = model.predict(testX)

    y_predict = []
    for i in y_predict_list:
        #print  i[0]
        if i[0] > 0.5:
            y_predict.append(0)
        else:
            y_predict.append(1)

    print(classification_report(testY_old, y_predict))
    print metrics.confusion_matrix(testY_old, y_predict)
    #print metrics.recall_score(testY_old, y_predict)
    #print metrics.accuracy_score(testY_old, y_predict)


3.结果

验证效果不是很好,准确率87%

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
LSTM(Long Short Term Memory)是一种用于处理序列数据的循环神经网络(RNN)模型。与传统的RNN相比,LSTM在处理长序列数据时能够更好地捕捉长期的依赖关系。 LSTM的核心是细胞状态(cell state),负责存储和传递信息。细胞状态可以被看作一个传送带,能够在整个序列中传递信息,而不受梯度消失或梯度爆炸的影响。LSTM通过门控单元(gate)结构来控制细胞状态的输入、输出和遗忘。 LSTM的门控单元包括输入门(input gate)、遗忘门(forget gate)和输出门(output gate)。输入门决定了哪些信息将被输入到细胞状态中,遗忘门决定了哪些信息将被从细胞状态中遗忘,输出门决定了哪些信息将被输出到下一步或最终输出。 在训练过程中,LSTM会通过反向传播算法来调整参数,使得模型能够适应给定的序列数据。LSTM模型的训练速度较慢,因为在时间步骤上需要进行反向传播,而且需要存储和计算更多的参数。 LSTM在实际应用中有广泛的应用,例如自然语言处理、语音识别、机器翻译等领域。它的主要优点是能够处理长时间的序列依赖关系,并且可以很好地捕捉关键信息。然而,LSTM也有一些缺点,例如模型复杂度高、训练速度慢等。 总之,LSTM是一种有效的模型,特别适用于处理序列数据,并且在实际应用中取得了很好的效果。随着深度学习的发展,LSTM的变种和改进也在不断涌现,使得序列数据的处理更加精确和高效。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值