17.人工智能
东方隐侠-千里
一颗初心,护天下安全!
东方隐侠,欢迎您的加入!
欢迎关注团队公众号!
展开
-
神经网络的专题学习——WittPeng(学自MoFan Python)
https://github.com/WittPengZLP/Learning-machine-learning-algorithms-using-python/blob/master/神经网络的专题学习.pdf原创 2019-03-10 13:47:58 · 341 阅读 · 0 评论 -
使用多种机器学习算法挖掘ADFA-FD数据集的攻击行为
ADFA-FD数据集是澳大利亚国防学院对外发布的一套主机及入侵检测系统的数据集合,被广泛应用于入侵检测类产品的测试。它记录了系统调用数据:ADFA-LD数据集将系统操作的顺序抽象成序列向量:1.使用K近邻算法检测WebShell# -*- coding:utf-8 -*-import reimport matplotlibmatplotlib.use('TkAgg...原创 2019-03-05 14:34:04 · 1980 阅读 · 12 评论 -
使用多种算法检测用户异常操作行为
数据集www.schonlau.net,包含50个用户的操作日志,每个日志中有15000条操作指令,前5000条都是正常操作,后10000条包含随机的异常操作。1.使用K近邻算法检测异常操作思想:取使用最频繁的和最不频繁的操作命令。# -*- coding:utf-8 -*-import sysimport urllibimport urlparseimport re...原创 2019-03-05 14:34:13 · 4002 阅读 · 2 评论 -
Learning about Graph Network
These days, I was taken care of by teacher Zhang Wei, I contacted the network.In 2018, the paper "Relational inductive biases, deep learning, and graph networks", co-authored by 27 scientists from co...原创 2019-03-01 17:17:40 · 308 阅读 · 0 评论 -
使用多种机器学习算法挖掘KDD99记录中的攻击记录
KDD 99数据集众所周知,KDD是知识发现与发掘英文的简称,KDD CUP是ACM年度竞赛。KDD 99 就是这个竞赛在1999年使用的数据集。这个数据集的来源是这样的,林肯实验室建立了模拟美国空军局域网的网络环境,收集了9周的网络连接和系统审计数据,仿真各种用户类型、各种不同的网络流量和攻击手段。数据集特点:前41项为特征,第42项为标记41个特征划分为4大类:TCP连接基本特...原创 2019-03-04 23:11:32 · 6173 阅读 · 14 评论 -
Anaconda的使用
1、Anaconda介绍安装python的方法有很多种,数据分析方面比较常用Anaconda。Anaconda是一个开源的Python发行版本,其包含了conda、Python等多个科学包及其依赖项,也可以使用Miniconda这个较小的发行版,仅包含conda和 Python。Anaconda可以管理包,就是能够安装、更新、移除工具包,比如Numpy、Scipy、pandas、Scikit-...原创 2019-02-20 08:19:24 · 308 阅读 · 0 评论 -
垃圾邮件识别
数据集:Enron-Spam数据集正常邮件内容举例如下:Subject: christmas basketsthe christmas baskets have been we have ordered several baskets individual earth - sat freeze - smith barney group baskets rodney keys matt ...原创 2019-02-28 23:23:48 · 3393 阅读 · 0 评论 -
使用机器学习算法进行验证码识别
数据集:MNIST数据集,包含大量验证码,我们可以使用K近邻算法、支持向量机和深度学习进行验证码识别。K近邻算法的流程图:SVC流程图:多层感知机MLP# -*- coding: utf-8 -*-import osos.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"import tflearnfrom tflearn.layer...原创 2019-02-28 23:04:39 · 1298 阅读 · 0 评论 -
学习宝书使用K近邻算法检测异常操作、检测Rookit和WebShell
学习《Web安全之机器学习》,颇有收获。1.检测异常操作因为我的python版本是3.7,和作者有所不同。修改了很多部分后,暂时的KNN.py代码为:# -*- coding:utf-8 -*-import sysimport urllibfrom urllib.parse import urlparseimport refrom hmmlearn import hmm...原创 2019-02-19 22:44:40 · 1245 阅读 · 1 评论 -
使用多种算法挖掘Alexa域名数据
Alexa域名数据Alexa是一家专门发布网站世界排名的网站,它所包含的数据集里面包含了多达几十亿的网址链接,且进行了排名。事实上,因为Alexa关注的是用户安装其插件后的访问数据,仅是因为没有更好的数据集的情况下,Alexa域名数据具有了一定的权威性。1,使用朴素贝叶斯算法挖掘DGA域名# -*- coding:utf-8 -*-import sysimport urllib...原创 2019-03-05 14:33:31 · 3462 阅读 · 0 评论 -
MNIST验证图片识别的多种算法使用
MNIST数据集MNIST是一个入门级的计算机视觉数据集,包含各种首次手写数字图片,包括60000个训练数据和10000个测试数据。每一个MNIST数据项由两部分组成,一张图片和对应的标签。每张图片包含28*28个像素点。1.使用逻辑回归算法识别验证码# -*- coding:utf-8 -*-import reimport matplotlibmatplotlib.use(...原创 2019-03-05 14:33:43 · 822 阅读 · 5 评论 -
学习使用决策树和随机森林算法检测暴力破解
1.使用决策树算法检测POP3暴力破解# -*- coding:utf-8 -*-import reimport matplotlib.pyplot as pltimport osfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn import cross_validationimpor...原创 2019-02-20 19:05:55 · 1534 阅读 · 0 评论 -
学习sklearn库
学习sklearn库——WittPeng(Using Python 2.7)请前往我的github:https://github.com/WittPengZLP/Learning-machine-learning-algorithms-using-python原创 2019-03-08 20:33:00 · 158 阅读 · 0 评论 -
对卷积神经网络的再度探索
CNN目前活跃在图像分类领域,人们尝试直接把原始图像作为输入,通过深度学习得到分类结果,按照这个思路,人们开始了浩浩荡荡的深度学习。在使用过程中,人们发现,由于全连接带来的巨大计算量,是研究者和项目本身无法承受的,而在实际生活中,我们去辨别图像的时候,更多的是利用局部连接,我们的探索也是一块一块的去落实。局部连接的出现让计算量下了几个数量级,但是依然十分巨大,因为局部连接只是减少了节点与下...原创 2019-02-26 20:07:42 · 509 阅读 · 0 评论 -
无监督算法在Web安全中的应用(二)
1.Apriori算法挖掘关联规则需要知道三个基本概念:支持度、置信度、频繁k项集。Apriori算法就是挖掘同时满足最小支持度阈值和最小置信度阈值的关联规则。在安全领域,这个算法应用十分广泛,凡事需要挖掘潜在关联关系的都可以尝试使用。在挖掘XSS相关参数中,从xssed网站的样例以及WAF的拦截日志中提取XSS攻击日志作为样本。目的是分析出潜在的关联关系,然后作为SVM、KNN等分类算法...原创 2019-02-21 12:58:16 · 396 阅读 · 0 评论 -
使用无监督算法检测DGA域名(一)
1.K-means的基本使用import numpy as npimport matplotlibmatplotlib.use('TkAgg')import matplotlib.pyplot as pltfrom sklearn.cluster import KMeansfrom sklearn.datasets import make_blobsdef show_kmean...原创 2019-02-21 09:30:00 · 6068 阅读 · 1 评论 -
使用支持向量机算法区分黑白
本博客是学习《Web安全之机器学习入门》的笔记。支持向量机算法可以在这里看:https://blog.csdn.net/qq_37865996/article/details/84555680这个算法在这里的应用,自然是想找到一个超平面,划分普通用户和黑客,距离超平面最近的用户样本成为支持向量。在支持向量机中,很多时候都是不可线形区分的情况,虽然增加维数可以解决这一问题,但是由此造成的“维...原创 2019-02-21 09:04:28 · 436 阅读 · 0 评论 -
使用逻辑回归算法进行相应的检测和识别
逻辑回归算法常常用来估计某种事物的可能性,可以用来回归,也可以用来分类。ogistic回归虽然名字叫”回归” ,但却是一种分类学习方法。使用场景大概有两个:第一用来预测,第二寻找因变量的影响因素。逻辑回归(Logistic Regression, LR)又称为逻辑回归分析,是分类和预测算法中的一种。通过历史数据的表现对未来结果发生的概率进行预测。例如,我们可以将购买的概率设置为因变量,将用户的...原创 2019-02-20 23:16:47 · 1256 阅读 · 1 评论 -
使用朴素贝叶斯算法进行Web安全相关检测
1.检测异常操作# -*- coding:utf-8 -*-import sysimport urllibimport urlparseimport refrom hmmlearn import hmmimport numpy as npfrom sklearn.externals import joblibimport HTMLParserimport nltkimp...原创 2019-02-20 22:15:21 · 1213 阅读 · 1 评论 -
对循环神经网络的求根问底
1.循环神经网络的研习循环神经网络RNN是深度学习算法中非常有名的一种算法,表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,隐藏层的输入包括输入层的输出和上一时刻隐藏层的输出。我们不禁发问,这样做的意义是什么?这是因为我们之前研究的卷积神经网络等算法是建立在“元素之间是相互独立的,输入与输出也是独立的”这样一个假设的,其实这与实际有很...原创 2019-02-28 18:14:58 · 466 阅读 · 0 评论 -
机器学习与Web安全结合的基础
注:本篇博客可以看作是拜读《Web安全之机器学习入门》后的笔记。人工智能从提出至今,已经得到了长足的发展。从谷歌大脑,到百度无人车,到阿尔法狗围棋大战,人工智能越来越具有生机与活力。与此同时,国内外的网络安全形势更加严峻,而信息安全人才却一直存在较大的缺口。安全技术和人工智能的人结合已成为大势所趋。事实上已经如此实现了,人工智能在黄反鉴定、 恶意链接、 业务风控领域、 病毒分析、APT检测方...原创 2019-02-19 14:36:41 · 925 阅读 · 0 评论 -
铸造 机器学习工具箱 目标达成
在机器学习方面,因为Python的语法简单、生态完整,成为了机器学习领域的宠儿。它有很多库需要安装和使用:1.NumpyNumPy是Python的一种开源的数值计算扩展,可用来存储和处理大型矩阵,其具有强大的N维数组对象Array、比较成熟的(广播) 函数库、用于整合C/C++和Fortran代码的工具包、实用的线性代数、 傅里叶变换和随机数生成函数。与此同时,NumPy提供了许多高级的数...原创 2019-02-19 08:45:21 · 225 阅读 · 0 评论 -
机器学习_8.决策树算法
1.ID3算法预备知识1.信息熵:2.信息增益 算法内容引入了信息论中的互信息(信息增益)作为选择判别因素的度量,即:以信息增益的下降速度作为选取分类属性的标准,所选的测试属性是从根节点到当前节点的路径上从没有被考虑过的具有最高的信息增益的属性。这就需要计算各个属性的信息增益的值,找出最大的作为判别的属性: 1. 计算先验熵,没有接收到其他的属性值时的平均不确...原创 2018-11-17 09:33:53 · 807 阅读 · 0 评论 -
机器学习_7.认识决策树
借鉴:https://www.jianshu.com/p/c4d0837e9439决策树决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性...转载 2018-11-17 08:56:19 · 212 阅读 · 0 评论 -
机器学习_9.随机森林算法
定义随机森林指的是利用多棵树对样本进行训练并预测的一种分类器。该分类器最早由Leo Breiman和Adele Cutler提出,并被注册成了商标。在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。Leo Breiman和Adele Cutler发展出推论出随机森林的算法。 随机森林是一种灵活且易于使用的机器学习算法,即便没有超参数调优,也...原创 2018-11-21 18:48:13 · 1520 阅读 · 1 评论 -
机器学习_6.隐马算法的代码实现
借鉴:https://github.com/Continue7777/HMM/依旧基于三个问题进行实现1.评估(1)描述给定观测序列O(o1,o2,…,oT)和模型u = (π,A,B),求出P(O | u),即给定模型下观测序列的概率是多少?(2)实际算法不再提穷举这件事了,无法应对长序列。定义前向变量算子αt(i)=P(O1,O2,…,Ot,Xt = Si | u)...原创 2018-11-16 18:46:35 · 486 阅读 · 0 评论 -
机器学习_5.隐马尔可夫模型的典型问题和算法
三个典型问题1.已知模型参数,计算某一给定可观察状态序列的概率已经有一个特定的隐马尔科夫模型 λ 和一个可观察状态序列集。我们也许想知道在所有可能的隐藏状态序列下,给定的可观察状态序列的概率。当给定如下一个隐藏状态序列: 那么在 HMM 和这个隐藏状态序列的条件下,可观察状态序列的概率为: 而隐藏状态序列在 HMM 条件下的概率为: 因此,隐藏状态序列和可观察...原创 2018-11-16 13:19:58 · 882 阅读 · 0 评论 -
机器学习_4.隐马尔可夫模型初识
预备知识——熵隐马尔可夫模型是从统计的基础上发展起来的,因此首先需要掌握以下几点:熵是表示物质系统状态的一种度量,用以表示系统的无序程度,也可称不确定性程度。在信息论中,香农使用熵来表示信息系统的平均信息量,即平均不确定程度。 最大熵原理是一种选择随机变量统计特性最符合客观情况的准则,也称为最大信息原理。随机量的概率分布是很难测定的,一般只能测得其各种均值(如数学期望、方差等)或已知某些...原创 2018-11-16 11:17:33 · 444 阅读 · 0 评论 -
机器学习_3.神经网络之CNN
卷积神经网络卷积神经网络(Convoltional Neural Networks, CNN)是一类包含卷积或相关计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一 。由于卷积神经网络能够进行平移不变分类(shift-invariant classification),因此在文献中也被称为“平移...转载 2018-11-09 22:22:11 · 1684 阅读 · 0 评论 -
机器学习_2.神经网络之DBN
深度信念网络(DBN)深度信念网络是一个概率生成模型,与传统的判别模型的神经网络相对,生成模型是建立一个观察数据和标签之间的联合分布,对P(Observation|Label)和 P(Label|Observation)都做了评估,而判别模型仅仅而已评估了后者,也就是P(Label|Observation)。原文:https://blog.csdn.net/a819825294/artic...转载 2018-11-09 16:30:48 · 686 阅读 · 2 评论 -
机器学习_10.逻辑回归模型
借鉴:https://blog.csdn.net/weixin_39910711/article/details/81607386逻辑回归模型逻辑回归模型(Logistic Regression, LR)其实仅在线性回归的基础上,套用了一个逻辑函数,但也就由于这个逻辑函数,使得逻辑回归模型成为了机器学习领域一颗耀眼的明星,更是计算广告学的核心。逻辑回归模型是用于分类的算法,不作回归算法使用...原创 2018-11-25 13:58:53 · 793 阅读 · 0 评论 -
机器学习_11.支持向量机
SVM支持向量机(Support Vector Machine,SVM)是Corinna Cortes和Vapnik等于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。在机器学习中,支持向量机(SVM,还支持矢量网络)是与相关的学习算法有关的监督学习模型,可以分析数据,识别模式,用于分类和回归分析。参考:h...原创 2018-11-26 22:40:27 · 466 阅读 · 0 评论 -
机器学习_12.K均值算法
K均值聚类算法K均值聚类算法是先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了,每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中...转载 2018-12-03 12:32:00 · 884 阅读 · 0 评论 -
使用Weka进行K-近邻算法和K-均值算法的使用
0x01 Weka简介Weka是由新西兰怀卡托大学开发的智能分析系统(Waikato Environment for Knowledge Analysis) 。在怀卡托大学以外的地方,Weka通常按谐音念成Mecca,是一种现今仅存活于新西兰岛的,健壮的棕色鸟, 非常害羞,好奇心很强,但不会飞 。 Weka是用Java写成的,它可以运行于几乎所有的操作平台,包括Linux,Wind...原创 2019-02-18 20:12:49 · 6408 阅读 · 1 评论 -
CNN的学习和使用
CNN广泛用于处理图像中,根据生物的习惯,我们识别一个图像往往只需处理局部的数据即可。在CNN中,有权值共享这一概念,在大尺寸图像中随机选取一小块,并从小块样本中学习到一些特征,以这个特征作为探测器,应用到这个图像的任意地方。由此进行卷积运算。池化,人们可以计算图像一个区域上某个特定特征的平均值或者最大值,这些概要特征会改善结果。1.使用MNIST数据集进行练习from __fu...原创 2019-02-22 21:22:32 · 901 阅读 · 0 评论 -
RNN的学习和使用
思想就是:“温故而知新”。网络会对前面的信息进行定义并应用到当前输出的计算中,即隐藏层之间的节点不再无连接而是有链接的。正因为一部分输出结果会作为输入的一部分重新输入,使得RNN具有一定的记忆性。1.识别验证码# -*- coding: utf-8 -*-from __future__ import division, print_function, absolute_import...原创 2019-02-22 13:26:32 · 520 阅读 · 0 评论 -
多层感知机与DNN算法,TensorFlow的加入
1.神经网络与深度学习在神经网络的世界中,如果隐藏层为一层,就是单层神经网络,这是最简单的神经网络;如果有多层,则为多层感知机,深度学习是多层感知机的一种。深度神经网络是一种全连接的多层感知机,包括DNN、CNN和RNN。2.TensorFlow用于基于数据流图的计算,可以将复杂的数据结构传输至人工智能神经网中进行分析和处理。基本的组件有以下四个:操作:算法可以看成是操作的叠加,一...原创 2019-02-21 23:47:27 · 1300 阅读 · 0 评论 -
神经网络在安全领域的应用
关于神经网络的学习:https://blog.csdn.net/qq_37865996/article/details/838971561.使用神经网络算法识别验证码print(__doc__)import matplotlibmatplotlib.use('TkAgg')import matplotlib.pyplot as pltfrom sklearn.datasets ...原创 2019-02-21 23:10:41 · 1738 阅读 · 0 评论 -
图算法与知识图谱
1.图算法https://baike.baidu.com/item/图算法/107673012.Neo4j这是一个高性能的图形数据库,我之前也有介绍过。在此直接进行应用。之前我都是在Win10虚拟机中使用的,这里正好在安装的同时,也把步骤记录下来。下载:https://neo4j.com/download/neo4j-desktop/?edition=desktop&fla...原创 2019-02-21 22:49:57 · 8989 阅读 · 1 评论 -
隐式马尔可夫算法挖掘时序数据
隐式马尔可夫模型的基础假设是,一个连续的时间序列时间,它的状态由且仅由前面的N个事件决定,对应的时间序列可以成为N阶马尔可夫链。1.使用隐式马尔可夫算法识别XSS攻击在URL的参数中,有字母大小写、数字和字符,经过范化为不同的标志后,这里研究的隐藏序列便是状态见的循环转化了,HMM就是通过学习样本生成转移概率矩阵和发射概率矩阵。首先我们采用以白找黑的思路,通过学习正常来识别异常:...原创 2019-02-21 16:40:00 · 1220 阅读 · 0 评论