Web安全之深度学习实战
文章平均质量分 75
mooyuan天天
这个作者很懒,什么都没留下…
展开
-
《Web安全之深度学习实战》笔记:第十五章 反信用卡欺诈
本章主要以Credit Card Fraud Detection数据集为例子介绍针对信用卡欺诈的检测技术,使用特征提取方法为标准化,以及基于标准化基础上的降采样和过采样,介绍的分类算法包括朴素贝叶斯、XGBoost和多层感知机。相对于其他章节,本小节主要是学习过采样和降采样的处理方法,这在机器学习领域是非常重要的知识。一、信用卡欺诈信用卡欺诈是指故意使用伪造、作废的信用卡,冒用他人的信用卡骗取财物,或用本人信用卡进行恶意透支的行为,常见的信用卡欺诈主要包括以下几种形式。...原创 2022-03-13 11:22:41 · 372 阅读 · 0 评论 -
《Web安全之深度学习实战》笔记:第十四章 恶意程序分类识别
本小节主要以MIST数据集为例介绍恶意程序的分类识别技术,使用特征提取方法为2-Gram和TF-IDF模型,介绍的分类算法包括支持向量机、XGBoost和多层感知机。一、恶意程序常见的恶意程序识别方法主要依据是静态文件特征码和高危动态行为特征等,会随着恶意程序呈指数级增长。传统的基于规则的检测技术已经难以覆盖全部恶意程序,终端安全厂商将大量的人力物力投入到使用沙箱以及机器学习技术上,希望可以有效提高识别恶意程序的能力。二、数据集测试数据来自Marco Ramilli的MIST数据集(Malw原创 2022-03-13 11:21:36 · 776 阅读 · 0 评论 -
《Web安全之深度学习实战》笔记:第十三章 DGA域名识别
本小节是讲解DGA域名的识别,在《web安全之机器学习入门》中,曾经通过多节来讲解DGA域名,相关笔记如下:《Web安全之机器学习入门》笔记:第七章 7.6朴素贝叶斯检测DGA域名_mooyuan的博客-CSDN博客《Web安全之机器学习入门》笔记:第九章 9.4 支持向量机算法SVM 检测DGA域名_mooyuan的博客-CSDN博客《Web安全之机器学习入门》笔记:第十章 10.3 K-Means算法检测DGA域名_mooyuan的博客-CSDN博客通过如上笔记,相信大概也能分析出《we原创 2022-03-12 12:03:10 · 5640 阅读 · 1 评论 -
《Web安全之深度学习实战》笔记:第十二章 智能扫描器(1) XSS攻击载荷
别看本小节的标题较为炫酷,实际上是这就是通过让机器通过学习攻击样本,自动生成XSS攻击载荷,与本书第三章中使用的SequenceGenerator原理相同,具体可参考我之前的笔记。《Web安全之深度学习实战》笔记:第三章 循环神经网络_mooyuan的博客-CSDN博客一、扫描器漏洞扫描主要就是基于扫描器,扫描器是安全领域非常重要的一个工具,大多数安全公司都会有自己的扫描器产品。扫描器的原理非常简单,如图12-1所示,扫描器通过对目标网站发送攻击请求,根据应答内容判断是否存在漏洞,整个过程就是模原创 2022-03-12 11:00:26 · 4389 阅读 · 0 评论 -
《Web安全之深度学习实战》笔记:第十二章 智能扫描器(2) 自动登录
本小节的内容虽然放到智能扫描器中,但是自动识别登录界面实际上是让通过让机器通过学习20News Groups Dataset数据样本,挖掘登录与注册页面常见关键字,如输入参数为password,即求与password接近的单词;而输入参数为email,即求与email相近的但此处。看到这里,相信非初学者应该已经了解本小节的本质是什么了,那就是通过Word2Vec来分析语义相似度。一、自动登录在研究如何使用机器自动识别注册和登录界面之前,我们先回顾一下人工是如何识别的。这里附作者给的示例图以注册页原创 2022-03-12 11:01:55 · 3623 阅读 · 0 评论 -
《Web安全之深度学习实战》笔记:第十一章 Webshell检测
本小节通过机器学习算法来识别webshell ,较新的知识点是opcode。一、webshellWebShell就是以ASP、PHP、JSP或者CGI等网页文件形式存在的一种命令执行环境,也可以将其称为一种网页后门。黑客在入侵了一个网站后,通常会将ASP或PHP后门文件与网站服务器Web目录下正常的网页文件混在一起,然后就可以使用浏览器来访问ASP或者PHP后门,得到一个命令执行环境,以达到控制网站服务器的目的。顾名思义,“Web”的含义是需要服务器提供Web服务,“Shell”的含义是取得对服务器原创 2022-03-12 00:07:50 · 5584 阅读 · 3 评论 -
《Web安全之深度学习实战》笔记:第十章 用户行为分析与恶意行为检测
本章基于SEA数据集介绍UBA的一个典型应用场景,即恶意操作行为检测。事实上,在《web安全之机器学习入门》中,我们已经了解过该数据集。我们将恶意内部人员和内部员工的异常操作统称为恶意操作。检测这种恶意操作需要使用高级技术,比如用户行为分析(User Behawiors Analysis,UBA),这种新兴技术可提供以往被遗漏的数据保护和欺诈检测功能。结合用户日常操作的系统,UBA利用一种专门的安全分析算法,不仅可以关注初始登录操作,还能跟踪用户的一举一动。UBA有两个主...原创 2022-03-11 15:31:46 · 1715 阅读 · 1 评论 -
《Web安全之深度学习实战》笔记:第九章 Linux后门检测
本章主要以ADFA-LD数据集为例介绍Linux系统的后门检测,使用特征提取方法为2-Gram和TF-IDF,介绍的分类算法包括朴素贝叶斯NB、XGBoost和深度学习之多层感知机MLP。一、数据集其实这个数据集在《web安全之机器学习入门》中多个单元中均有提到,ADFA数据集是澳大利亚国防学院对外发布的一套主机级入侵检测系统的数据集合,被广泛应用于入侵检测类产品的测试。该数据集包括ADFA-LD和ADFA-WD,分别代表Linux系统的数据集和Windows系统的数据集。以AD...原创 2022-03-11 14:29:54 · 923 阅读 · 0 评论 -
《Web安全之深度学习实战》笔记:第八章 骚扰短信识别(5)
本章主要以SMS Spam Collection数据集 为例介绍骚扰短信的识别技术。之前通过(1)(2)(3)(4)共4篇文章来讲解骚扰短信数据集特征向量的提取,包括词袋和TF-IDF模型、词汇表模型以及Word2Vec和Doc2Vec模型,分别如下所示 《Web安全之深度学习实战》笔记:第八章 骚扰短信识别(1)_mooyuan的博客-CSDN博客《Web安全之深度学习实战》笔记:第八章 骚扰短信识别(2)_mooyuan的博客-CSDN博客《Web安...原创 2022-03-10 21:49:40 · 612 阅读 · 0 评论 -
《Web安全之深度学习实战》笔记:第八章 骚扰短信识别(4)
本章主要以SMS Spam Collection数据集 为例介绍骚扰短信的识别技术。这一个小节以Word2Vec对骚扰短信特征提取方法来详细讲解。原创 2022-03-10 21:02:01 · 512 阅读 · 0 评论 -
《Web安全之深度学习实战》笔记:第八章 骚扰短信识别(1)
本章主要以SMS Spam Collection数据集 为例介绍骚扰短信的识别技术。介绍识别骚扰短信使用的征提取方法,包括词袋和TF-IDF模型、词汇表模型以及Word2Vec和Doc2Vec模型,介绍使用的模型以及对应的验证结果,包括朴素贝叶斯、支持向量机、XGBoost和MLP算法。这一节与第六章的垃圾邮件、第七章的负面评论类似、只是识别的内容变为了骚扰短信,均为2分类问题。一、数据集测试数据来自SMS Spam Collection数据集,SMS Spam Collec...原创 2022-03-10 19:37:09 · 1485 阅读 · 1 评论 -
《Web安全之深度学习实战》笔记:第八章 骚扰短信识别(2)
本章主要以SMS Spam Collection数据集 为例介绍骚扰短信的识别技术。这一个小节以词袋TF-IDF对骚扰短信特征提取方法来详细讲解。TF-IDF模型一、原理词频与逆向文件频率(term frequency–inverse document frequency,TF-IDF)模型是一种文本处理领域的特征提取方法。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性与它在文件中出现的次数成正...原创 2022-03-10 19:41:45 · 302 阅读 · 0 评论 -
《Web安全之深度学习实战》笔记:第八章 骚扰短信识别(3)
本章主要以SMS Spam Collection数据集 为例介绍骚扰短信的识别技术。这一个小节以Word2Vec对骚扰短信特征提取方法来详细讲解。Word2Vec模型一、原理 Word2Vec是Google在2013年开源的一款将词表征为实数值向量的高效工具,采用的模型有连续词袋(Continuous Bag-Of-Words,CBOW)模型和Skip-Gram两种,原理图见下图。Word2Vec通过训练,可以把对文本内容的处理...原创 2022-03-10 19:44:28 · 367 阅读 · 0 评论 -
《Web安全之深度学习实战》笔记:第七章 负面评论识别
本小节讲述通过原创 2022-03-07 23:46:44 · 1163 阅读 · 2 评论 -
《Web安全之深度学习实战》笔记:第六章 垃圾邮件识别
本小节使用Enron-Spam数据集来识别垃圾邮件,通过多种方法处理数据集,同时使用多种机器学习的方法来识别垃圾邮件。一、数据集介绍垃圾邮件对于企业邮箱用户的影响主要是给日常办公和邮箱管理者带来额外负担,尤其是钓鱼邮件更是有可能导致企业遭受巨大损失。根据不完全统计,在高效的反垃圾环境下依旧有80%的用户每周需要耗费10分钟左右的时间处理这些垃圾邮件。对于企业邮件服务商而言,垃圾邮件大量占用网络资源,使得邮件服务器大部分资源都耗费在处理垃圾邮件上,不仅大大浪费资源,甚至可能影响企业正常业务邮件的沟原创 2022-03-06 21:54:31 · 3328 阅读 · 1 评论 -
《Web安全之深度学习实战》笔记:第一章 深度学习工具箱
本小节通过keras和tensorflow识别mnist数据集,来讲述基本用法。一、kerasdef use_keras(): import keras from keras.datasets import mnist from keras.models import Sequential from keras.layers import Dense, Dropout from keras.optimizers import RMSprop .原创 2022-03-06 17:36:32 · 276 阅读 · 0 评论 -
《Web安全之深度学习实战》笔记:第五章 验证码识别
本小节实际上就是用KNN、SVM、MLP、CNN识别mnist数据集,实际上这些在《web安全之机器学习入门》中都有讲过,而这些也是非常基础的应用。一、KNN整体设计如下源码如下所示def do_knn_1d(x_train, y_train,x_test, y_test): print ("KNN and 1d") clf = neighbors.KNeighborsClassifier(n_neighbors=15) print (clf) clf.原创 2022-03-06 13:30:17 · 432 阅读 · 0 评论 -
《Web安全之深度学习实战》笔记:第三章 循环神经网络
本章主要讲解RNN的基本使用方法。一、基于lstm对影评进行分类这是基于imdb.pkl数据集对影评分类,使用的是lstm算法。代码如下所示from __future__ import division, print_function, absolute_importimport tflearnfrom tflearn.data_utils import to_categorical, pad_sequencesfrom tflearn.datasets import imdbf原创 2022-03-06 09:39:02 · 845 阅读 · 0 评论 -
《Web安全之深度学习实战》笔记:第二章 卷积神经网络
本章通过cnn、alexnet、vgg来识别数据集。这一章与web安全相关较少,仅是展示卷积神经网络在图像领域的基本用法。一、CNN算法通过cnn识别mnist数据集代码如下import tflearnfrom tflearn.layers.core import input_data, dropout, fully_connectedfrom tflearn.layers.conv import conv_2d, max_pool_2dfrom tflearn.layers原创 2022-02-20 20:13:05 · 1574 阅读 · 0 评论