数据挖掘
东方隐侠-千里
一颗初心,护天下安全!
东方隐侠,欢迎您的加入!
欢迎关注团队公众号!
展开
-
机器学习_4.隐马尔可夫模型初识
预备知识——熵隐马尔可夫模型是从统计的基础上发展起来的,因此首先需要掌握以下几点:熵是表示物质系统状态的一种度量,用以表示系统的无序程度,也可称不确定性程度。在信息论中,香农使用熵来表示信息系统的平均信息量,即平均不确定程度。 最大熵原理是一种选择随机变量统计特性最符合客观情况的准则,也称为最大信息原理。随机量的概率分布是很难测定的,一般只能测得其各种均值(如数学期望、方差等)或已知某些...原创 2018-11-16 11:17:33 · 463 阅读 · 0 评论 -
使用支持向量机算法区分黑白
本博客是学习《Web安全之机器学习入门》的笔记。支持向量机算法可以在这里看:https://blog.csdn.net/qq_37865996/article/details/84555680这个算法在这里的应用,自然是想找到一个超平面,划分普通用户和黑客,距离超平面最近的用户样本成为支持向量。在支持向量机中,很多时候都是不可线形区分的情况,虽然增加维数可以解决这一问题,但是由此造成的“维...原创 2019-02-21 09:04:28 · 452 阅读 · 0 评论 -
使用逻辑回归算法进行相应的检测和识别
逻辑回归算法常常用来估计某种事物的可能性,可以用来回归,也可以用来分类。ogistic回归虽然名字叫”回归” ,但却是一种分类学习方法。使用场景大概有两个:第一用来预测,第二寻找因变量的影响因素。逻辑回归(Logistic Regression, LR)又称为逻辑回归分析,是分类和预测算法中的一种。通过历史数据的表现对未来结果发生的概率进行预测。例如,我们可以将购买的概率设置为因变量,将用户的...原创 2019-02-20 23:16:47 · 1286 阅读 · 1 评论 -
使用朴素贝叶斯算法进行Web安全相关检测
1.检测异常操作# -*- coding:utf-8 -*-import sysimport urllibimport urlparseimport refrom hmmlearn import hmmimport numpy as npfrom sklearn.externals import joblibimport HTMLParserimport nltkimp...原创 2019-02-20 22:15:21 · 1246 阅读 · 1 评论 -
学习使用决策树和随机森林算法检测暴力破解
1.使用决策树算法检测POP3暴力破解# -*- coding:utf-8 -*-import reimport matplotlib.pyplot as pltimport osfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn import cross_validationimpor...原创 2019-02-20 19:05:55 · 1647 阅读 · 0 评论 -
机器学习与Web安全结合的基础
注:本篇博客可以看作是拜读《Web安全之机器学习入门》后的笔记。人工智能从提出至今,已经得到了长足的发展。从谷歌大脑,到百度无人车,到阿尔法狗围棋大战,人工智能越来越具有生机与活力。与此同时,国内外的网络安全形势更加严峻,而信息安全人才却一直存在较大的缺口。安全技术和人工智能的人结合已成为大势所趋。事实上已经如此实现了,人工智能在黄反鉴定、 恶意链接、 业务风控领域、 病毒分析、APT检测方...原创 2019-02-19 14:36:41 · 947 阅读 · 0 评论 -
多层感知机与DNN算法,TensorFlow的加入
1.神经网络与深度学习在神经网络的世界中,如果隐藏层为一层,就是单层神经网络,这是最简单的神经网络;如果有多层,则为多层感知机,深度学习是多层感知机的一种。深度神经网络是一种全连接的多层感知机,包括DNN、CNN和RNN。2.TensorFlow用于基于数据流图的计算,可以将复杂的数据结构传输至人工智能神经网中进行分析和处理。基本的组件有以下四个:操作:算法可以看成是操作的叠加,一...原创 2019-02-21 23:47:27 · 1319 阅读 · 0 评论 -
神经网络在安全领域的应用
关于神经网络的学习:https://blog.csdn.net/qq_37865996/article/details/838971561.使用神经网络算法识别验证码print(__doc__)import matplotlibmatplotlib.use('TkAgg')import matplotlib.pyplot as pltfrom sklearn.datasets ...原创 2019-02-21 23:10:41 · 1756 阅读 · 0 评论 -
图算法与知识图谱
1.图算法https://baike.baidu.com/item/图算法/107673012.Neo4j这是一个高性能的图形数据库,我之前也有介绍过。在此直接进行应用。之前我都是在Win10虚拟机中使用的,这里正好在安装的同时,也把步骤记录下来。下载:https://neo4j.com/download/neo4j-desktop/?edition=desktop&fla...原创 2019-02-21 22:49:57 · 9039 阅读 · 1 评论 -
隐式马尔可夫算法挖掘时序数据
隐式马尔可夫模型的基础假设是,一个连续的时间序列时间,它的状态由且仅由前面的N个事件决定,对应的时间序列可以成为N阶马尔可夫链。1.使用隐式马尔可夫算法识别XSS攻击在URL的参数中,有字母大小写、数字和字符,经过范化为不同的标志后,这里研究的隐藏序列便是状态见的循环转化了,HMM就是通过学习样本生成转移概率矩阵和发射概率矩阵。首先我们采用以白找黑的思路,通过学习正常来识别异常:...原创 2019-02-21 16:40:00 · 1317 阅读 · 0 评论 -
解决NLPIR中文分词系统Lisence过期问题
打开https://github.com/NLPIR-team/NLPIR/blob/master/License/license%20for%20a%20month/NLPIR-ICTCLAS分词系统授权/NLPIR.user进行下载,下载完成后替换Data文件夹下NLPIR.user,即可解决问题。...原创 2019-02-07 13:18:11 · 2283 阅读 · 5 评论 -
结巴中文分词的学习和使用
结巴分词算法(1) 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG);(2) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合;(3) 对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法。三种分词模式(1) 精确模式:试图将句子最精确地切开,适合文本分析;(2) 全模式:把句子中所有的可...原创 2018-12-21 08:45:16 · 1550 阅读 · 0 评论 -
机器学习_11.支持向量机
SVM支持向量机(Support Vector Machine,SVM)是Corinna Cortes和Vapnik等于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。在机器学习中,支持向量机(SVM,还支持矢量网络)是与相关的学习算法有关的监督学习模型,可以分析数据,识别模式,用于分类和回归分析。参考:h...原创 2018-11-26 22:40:27 · 497 阅读 · 0 评论 -
机器学习_10.逻辑回归模型
借鉴:https://blog.csdn.net/weixin_39910711/article/details/81607386逻辑回归模型逻辑回归模型(Logistic Regression, LR)其实仅在线性回归的基础上,套用了一个逻辑函数,但也就由于这个逻辑函数,使得逻辑回归模型成为了机器学习领域一颗耀眼的明星,更是计算广告学的核心。逻辑回归模型是用于分类的算法,不作回归算法使用...原创 2018-11-25 13:58:53 · 818 阅读 · 0 评论 -
机器学习_8.决策树算法
1.ID3算法预备知识1.信息熵:2.信息增益 算法内容引入了信息论中的互信息(信息增益)作为选择判别因素的度量,即:以信息增益的下降速度作为选取分类属性的标准,所选的测试属性是从根节点到当前节点的路径上从没有被考虑过的具有最高的信息增益的属性。这就需要计算各个属性的信息增益的值,找出最大的作为判别的属性: 1. 计算先验熵,没有接收到其他的属性值时的平均不确...原创 2018-11-17 09:33:53 · 868 阅读 · 0 评论 -
机器学习_7.认识决策树
借鉴:https://www.jianshu.com/p/c4d0837e9439决策树决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性...转载 2018-11-17 08:56:19 · 225 阅读 · 0 评论 -
机器学习_6.隐马算法的代码实现
借鉴:https://github.com/Continue7777/HMM/依旧基于三个问题进行实现1.评估(1)描述给定观测序列O(o1,o2,…,oT)和模型u = (π,A,B),求出P(O | u),即给定模型下观测序列的概率是多少?(2)实际算法不再提穷举这件事了,无法应对长序列。定义前向变量算子αt(i)=P(O1,O2,…,Ot,Xt = Si | u)...原创 2018-11-16 18:46:35 · 499 阅读 · 0 评论 -
机器学习_5.隐马尔可夫模型的典型问题和算法
三个典型问题1.已知模型参数,计算某一给定可观察状态序列的概率已经有一个特定的隐马尔科夫模型 λ 和一个可观察状态序列集。我们也许想知道在所有可能的隐藏状态序列下,给定的可观察状态序列的概率。当给定如下一个隐藏状态序列: 那么在 HMM 和这个隐藏状态序列的条件下,可观察状态序列的概率为: 而隐藏状态序列在 HMM 条件下的概率为: 因此,隐藏状态序列和可观察...原创 2018-11-16 13:19:58 · 915 阅读 · 0 评论 -
无监督算法在Web安全中的应用(二)
1.Apriori算法挖掘关联规则需要知道三个基本概念:支持度、置信度、频繁k项集。Apriori算法就是挖掘同时满足最小支持度阈值和最小置信度阈值的关联规则。在安全领域,这个算法应用十分广泛,凡事需要挖掘潜在关联关系的都可以尝试使用。在挖掘XSS相关参数中,从xssed网站的样例以及WAF的拦截日志中提取XSS攻击日志作为样本。目的是分析出潜在的关联关系,然后作为SVM、KNN等分类算法...原创 2019-02-21 12:58:16 · 419 阅读 · 0 评论