
Web安全之深度学习实战
文章平均质量分 89
mooyuan天天
网络安全领域
展开
-
《Web安全之深度学习实战》笔记:第十五章 反信用卡欺诈
本章主要以Credit Card Fraud Detection数据集为例子介绍针对信用卡欺诈的检测技术,使用特征提取方法为标准化,以及基于标准化基础上的降采样和过采样,介绍的分类算法包括朴素贝叶斯、XGBoost和多层感知机。相对于其他章节,本小节主要是学习过采样和降采样的处理方法,这在机器学习领域是非常重要的知识。一、信用卡欺诈信用卡欺诈是指故意使用伪造、作废的信用卡,冒用他人的信用卡骗取财物,或用本人信用卡进行恶意透支的行为,常见的信用卡欺诈主要包括以下几种形式。...原创 2022-03-13 11:22:41 · 492 阅读 · 0 评论 -
《Web安全之深度学习实战》笔记:第十四章 恶意程序分类识别
本小节主要以MNIST数据集为例介绍恶意程序的分类识别技术,使用特征提取方法为2-Gram和TF-IDF模型,介绍的分类算法包括支持向量机、XGBoost和多层感知机。原创 2022-03-13 11:21:36 · 905 阅读 · 0 评论 -
《Web安全之深度学习实战》笔记:第十三章 DGA域名识别
域名生成算法(Domain Generation Algorithm,DGA)是一项古老但一直活跃的技术,是中心结构僵尸网络赖以生存的关键武器,该技术给网络安全人员造成了不小的麻烦。针对基于DGA的僵尸网络(如图13-1所示),研究人员需要快速掌握域名生成算法和输入,对生成的域名及时进行处置。DGA依赖时间、字典和硬编码的常量动态生成域名原创 2022-03-12 12:03:10 · 5936 阅读 · 1 评论 -
《Web安全之深度学习实战》笔记:第十二章 智能扫描器(2) 自动登录
本小节的内容虽然放到智能扫描器中,但是自动识别登录界面实际上是让通过让机器通过学习20News Groups Dataset数据样本,挖掘登录与注册页面常见关键字,如输入参数为password,即求与password接近的单词;而输入参数为email,即求与email相近的但此处。看到这里,相信非初学者应该已经了解本小节的本质是什么了,那就是通过Word2Vec来分析语义相似度。一、自动登录在研究如何使用机器自动识别注册和登录界面之前,我们先回顾一下人工是如何识别的。这里附作者给的示例图以注册页原创 2022-03-12 11:01:55 · 3688 阅读 · 0 评论 -
《Web安全之深度学习实战》笔记:第十二章 智能扫描器(1) XSS攻击载荷
本小节讲述通过webshell载荷的生成。别看本小节的标题较为炫酷,实际上是这就是通过让机器通过学习攻击样本,使用RNN的LSMT算法自动生成XSS攻击载荷原创 2022-03-12 11:00:26 · 4509 阅读 · 0 评论 -
《Web安全之深度学习实战》笔记:第十一章 Webshell检测
本小节通过多种算法(机器学习和深度学习)算法来识别webshell ,较opcode是计算机指令中的一部分,用于指定要执行的操作,指令的格式和规范由处理器的指令规范指定。除了指令本身以外通常还有指令所需要的操作数,可能有的指令不需要显式的操作数。这些操作数可能是寄存器中的值、堆栈中的值、某块内存的值或者I/O端口中的值等。通常opcode还有另一种称谓—字节码(byte codes)。例如Java虚拟机(JVM)和.NET的通用中间语言(Common IntermeditateLanguage,CIL)等。原创 2022-03-12 00:07:50 · 6139 阅读 · 3 评论 -
《Web安全之深度学习实战》笔记:第十章 用户行为分析与恶意行为检测
本章基于SEA数据集介绍UBA的一个典型应用场景,即恶意操作行为检测。事实上,在《web安全之机器学习入门》中,我们已经了解过该数据集。我们将恶意内部人员和内部员工的异常操作统称为恶意操作。检测这种恶意操作需要使用高级技术,比如用户行为分析(User Behawiors Analysis,UBA),这种新兴技术可提供以往被遗漏的数据保护和欺诈检测功能。结合用户日常操作的系统,UBA利用一种专门的安全分析算法,不仅可以关注初始登录操作,还能跟踪用户的一举一动。UBA有两个主...原创 2022-03-11 15:31:46 · 2024 阅读 · 1 评论 -
《Web安全之深度学习实战》笔记:第九章 Linux后门检测
本章主要以ADFA-LD数据集为例介绍Linux系统的后门检测,使用特征提取方法为2-Gram和TF-IDF,介绍的分类算法包括朴素贝叶斯NB、XGBoost和深度学习之多层感知机MLP。原创 2022-03-11 14:29:54 · 1094 阅读 · 0 评论 -
《Web安全之深度学习实战》笔记:第八章 骚扰短信识别(5)
本章主要以SMS Spam Collection数据集 为例介绍骚扰短信的识别技术。之前通过(1)(2)(3)(4)共4篇文章来讲解骚扰短信数据集特征向量的提取,包括词袋和TF-IDF模型、词汇表模型以及Word2Vec和Doc2Vec模型,分别如下所示 《Web安全之深度学习实战》笔记:第八章 骚扰短信识别(1)_mooyuan的博客-CSDN博客《Web安全之深度学习实战》笔记:第八章 骚扰短信识别(2)_mooyuan的博客-CSDN博客《Web安...原创 2022-03-10 21:49:40 · 679 阅读 · 0 评论 -
《Web安全之深度学习实战》笔记:第八章 骚扰短信识别(4)
本章主要以SMS Spam Collection数据集 为例介绍骚扰短信的识别技术。这一个小节以Word2Vec对骚扰短信特征提取方法来详细讲解。原创 2022-03-10 21:02:01 · 586 阅读 · 0 评论 -
《Web安全之深度学习实战》笔记:第八章 骚扰短信识别(3)
本章主要以SMS Spam Collection数据集 为例介绍骚扰短信的识别技术。这一个小节以Word2Vec对骚扰短信特征提取方法来详细讲解。Word2Vec模型一、原理 Word2Vec是Google在2013年开源的一款将词表征为实数值向量的高效工具,采用的模型有连续词袋(Continuous Bag-Of-Words,CBOW)模型和Skip-Gram两种,原理图见下图。Word2Vec通过训练,可以把对文本内容的处理...原创 2022-03-10 19:44:28 · 451 阅读 · 0 评论 -
《Web安全之深度学习实战》笔记:第八章 骚扰短信识别(2)
本系列文字主要以SMS Spam Collection数据集 为例介绍骚扰短信的识别技术。本文《Web安全之深度学习实战笔记:第八章 骚扰短信识别2》通过TF-IDF模型和N-gram分别对SMS Spam Collection数据集分类。两者的主要区别如下表所示。原创 2022-03-10 19:41:45 · 381 阅读 · 0 评论 -
《Web安全之深度学习实战》笔记:第八章 骚扰短信识别(1)
本章主要以SMS Spam Collection数据集 为例介绍骚扰短信的识别技术。介绍识别骚扰短信使用的征提取方法,包括词袋和TF-IDF模型、词汇表模型以及Word2Vec和Doc2Vec模型,介绍使用的模型以及对应的验证结果,包括朴素贝叶斯、支持向量机、XGBoost和MLP算法。这一节与第六章的垃圾邮件、第七章的负面评论类似、只是识别的内容变为了骚扰短信,均为2分类问题。一、数据集测试数据来自SMS Spam Collection数据集,SMS Spam Collec...原创 2022-03-10 19:37:09 · 1722 阅读 · 1 评论 -
《Web安全之深度学习实战》笔记:第八章 骚扰短信识别
本章主要以SMS Spam Collection数据集 为例介绍骚扰短信的识别技术。介绍识别骚扰短信使用的征提取方法,包括词袋和TF-IDF模型、词汇表模型以及Word2Vec和Doc2Vec模型,介绍使用的模型以及对应的验证结果,包括朴素贝叶斯、支持向量机、XGBoost和MLP算法。这一节与第六章的垃圾邮件、第七章的负面评论类似、只是识别的内容变为了骚扰短信,均为2分类问题。一、数据集测试数据来自SMS Spam Collection数据集,SMS Spam Collection是用于骚扰短信识原创 2025-04-23 22:46:38 · 836 阅读 · 0 评论 -
《Web安全之深度学习实战》笔记:第七章 负面评论识别
本小节相对于上节内容,主要是讲解了word2vec和doc2vec这两种方法提取特征向量,模型构建部分则是增加了随机森林。事实上构造word2vec和doc2vec这两个向量模型过于耗时,直接使用作者的源码测试性能并没有如此好,甚至有点差得离谱,我觉得应该是参数仍有较大调优的空间。原创 2022-03-07 23:46:44 · 1251 阅读 · 2 评论 -
《Web安全之深度学习实战》笔记:第六章 垃圾邮件识别
本小节使用Enron-Spam数据集来识别垃圾邮件,通过多种方法处理数据集,同时使用多种机器学习的方法来识别垃圾邮件。一、数据集介绍垃圾邮件对于企业邮箱用户的影响主要是给日常办公和邮箱管理者带来额外负担,尤其是钓鱼邮件更是有可能导致企业遭受巨大损失。根据不完全统计,在高效的反垃圾环境下依旧有80%的用户每周需要耗费10分钟左右的时间处理这些垃圾邮件。对于企业邮件服务商而言,垃圾邮件大量占用网络资源,使得邮件服务器大部分资源都耗费在处理垃圾邮件上,不仅大大浪费资源,甚至可能影响企业正常业务邮件的沟原创 2022-03-06 21:54:31 · 3892 阅读 · 1 评论 -
《Web安全之深度学习实战》笔记:第五章 验证码识别
本小节实际上就是用KNN、SVM、MLP、CNN识别mnist数据集,实际上这些在《web安全之机器学习入门》中都有讲过,而这些也是非常基础的应用。一、KNN整体设计如下源码如下所示def do_knn_1d(x_train, y_train,x_test, y_test): print ("KNN and 1d") clf = neighbors.KNeighborsClassifier(n_neighbors=15) print (clf) clf.原创 2022-03-06 13:30:17 · 492 阅读 · 0 评论 -
《Web安全之深度学习实战》笔记:第三章 循环神经网络
本章主要讲解RNN的基本使用方法。一、基于lstm对影评进行分类这是基于imdb.pkl数据集对影评分类,使用的是lstm算法。代码如下所示from __future__ import division, print_function, absolute_importimport tflearnfrom tflearn.data_utils import to_categorical, pad_sequencesfrom tflearn.datasets import imdbf原创 2022-03-06 09:39:02 · 894 阅读 · 0 评论 -
《Web安全之深度学习实战》笔记:第二章 卷积神经网络
本章通过cnn、alexnet、vgg来识别数据集。这一章与web安全相关较少,仅是展示卷积神经网络在图像领域的基本用法。一、CNN算法通过cnn识别mnist数据集代码如下import tflearnfrom tflearn.layers.core import input_data, dropout, fully_connectedfrom tflearn.layers.conv import conv_2d, max_pool_2dfrom tflearn.layers原创 2022-02-20 20:13:05 · 1650 阅读 · 0 评论 -
《Web安全之深度学习实战》笔记:第一章 深度学习工具箱
在深度学习领域,MNIST 数据集作为经典的入门级数据集,常被用于学习模型基础用法。《Web安全之深度学习实战》这本书的第一部分以 Keras 和 TensorFlow 两大框架识别 MNIST 数据集为例,揭开深度学习的神秘面纱。原创 2022-03-06 17:36:32 · 340 阅读 · 0 评论