异常检测
文章平均质量分 74
Rnan-prince
知是行之始,行是知之成(1352638748@qq.com)
展开
-
AI模型隐私风险及防护技术
随着AI成为新一代关键技术趋势,围绕着AI的服务也越来越普及。特别是结合了云计算以后,机器学习数据的标注、模型训练及预测等服务纷纷上云,为用户提供了强大的算力和优秀的算法,极大方便了广大开发者与企业用户。原创 2023-03-25 20:29:33 · 2154 阅读 · 1 评论 -
数据科学在Web威胁感知中的应用
写的非常棒,推荐给大家转载 2021-09-08 21:40:55 · 158 阅读 · 0 评论 -
异常检测基线的上下界判断
最近做异常检测,基于基线进行异常判断,可是用到了好多算法,如,3sigma、箱线图、MAD等,但是显示数据来了,哥哥算法暴露出了缺陷。下限可以做某习惯的基线,以下为异常,以上为正常上限可以做某频率的基线,以下为正常,异常为异常1、3simalower = mean + 3*sigmahigh = mean - 3*sigmadef get_3sigma(samples_list): men = np.mean(samples_list) sigma = np.std原创 2021-07-19 22:02:49 · 1597 阅读 · 0 评论 -
单分类算法:One Class SVM
安全检测常用算法有:Isolation Forest,One-Class Classification等,孤立森林参见另一篇,今天主要介绍One-Class Classification单分类算法。一,单分类算法简介 One Class Learning 比较经典的算法是One-Class-SVM,这个算法的思路非常简单,就是寻找一个超平面将样本中的正例圈出来,预测就是用这个超平面做决策,在圈内的样本就认为是正样本。由于核函数计算比较耗时,在海量数据的场景用的并不多; 另一个算法是...原创 2021-07-15 01:14:04 · 26963 阅读 · 8 评论 -
基于机器学习的UEBA在账号异常检测中的应用
UEBA UEBA用户实体行为分析,更多UEBA相关概念参考《UEBA白皮书》UEBA的核心点1.跨越SIEM/ROC产品,UEBA产品考虑更多的数据源。 从网络设备、系统、应用、数据库和用户处收集数据,有更多的数据,是其成功的条件之一。2.数据驱动,但并不是单纯依靠数据驱动。一般都是数据驱动+专家驱动的混合系统。单纯的数据驱动的问题: 1.在学习之处很难拿到十分完善的数据,每当有新的数据源都需要重新进行学习,对于工程化来说是一场灾难 2.增加features很原创 2021-07-15 00:34:43 · 7740 阅读 · 3 评论 -
异常检测方法-MAD
绝对中位差(MAD,median absolute deviation)方法是近年来受到青睐的异常值检测方法。MAD 定义为,一元序列Xi同其中位数偏差的绝对值的中位数(deviation,偏差本身有正有负):假定数据服从正态分布,我们让异常点(outliers)落在两侧的 50% 的面积里,让正常值落在中间的 50% 的区域里:正态分布下,±0.67449包含50%面积,而1/0.67449≈1.4826,因此:正态分布相关请参考:python标准正态分布表(scipy.s..原创 2021-01-10 01:07:17 · 6407 阅读 · 0 评论 -
异常值检测方法-箱线图(boxplot)
简述: 盒图是在1977年由美国的统计学家约翰·图基(John Tukey)发明的。它由五个数值点组成:最小值(min),下四分位数(Q1),中位数(median),上四分位数(Q3),最大值(max)。也可以往盒图里面加入平均值(mean)。如下图。下四分位数、中位数、上四分位数组成一个“带有隔间的盒子”。上四分位数到最大值之间建立一条延伸线,这个延伸线成为“胡须(whisker)”。 由于现实数据中总是存在各式各样地“脏数据”,也成为“离群点”,于是为了不因这些少数的离群数据导致整体特征原创 2020-08-18 00:17:23 · 21577 阅读 · 1 评论 -
KPI异常检测【三】- 机器学习算法
1、相关概念1.1 异常类型https://zhuanlan.zhihu.com/p/673962191.2 检测方法https://www.cnblogs.com/rnanprince/articles/10790313.html标记(labels):有监督,半监督,无监督 样本类型 困难 有监督 平衡 样本极度不平衡时,训练难;人工标记难 半监督 极度平衡 可能无异常样本 无监督 无标签 有强假设关系,检测存在偏差 .原创 2020-06-17 23:15:44 · 5136 阅读 · 0 评论 -
时间序列异常检测算法S-H-ESD
1. 基于统计的异常检测Grubbs' TestGrubbs' Test为一种假设检验的方法,常被用来检验服从正太分布的单变量数据集(univariate data set)YY中的单个异常值。若有异常值,则其必为数据集中的最大值或最小值。原假设与备择假设如下:H0:数据集中没有异常值H1:数据集中有一个异常值Grubbs' Test检验假设的所用到的检验统计量(test s...原创 2019-04-09 09:38:42 · 5530 阅读 · 0 评论 -
KPI异常检测【一】- 时间序列分解算法
1、相关概念1.1 异常时序异常检测通常形式化为根据某种标准或正常信号寻找离群数据点。有很多异常类型,但本文只关注那些从商业角度来说最重要的类型,包括意料之外的峰谷、趋势变动、水平变化(level shift)。数学上表示为:|预测值-真实值| > 阈值1.2 时间序列时间序列又称时间数列或动态数列,是按照时问的先后顺序排列的某一现象的一系列观测值。1.2.1 组成(1)现象所属的时间;(2)现象在不同时间上的观测值。现象在不同时间上的观测值的表现形式,有绝对数原创 2020-05-31 21:53:06 · 5111 阅读 · 4 评论 -
几种常见的离群点检验方法
在一组平行测定中,若有个别数据与平均值差别较大,则把此数据视为可疑值,也称离群值。 如果统计学上认为应该舍弃的数据留用了,势必会影响其平均值的可靠性。相反,本应该留用的数 据被舍弃,虽然精密度提高,但却夸大了平均值的可靠性。1 离群值检验方法简介设有一组正态样本的观测值,按其大小顺序排列为x1,x2,x3,……,xn。其中最小值x1或最大值xn为离群值(xout)。对于离群值的统计检验,大...转载 2019-04-19 10:50:18 · 60076 阅读 · 2 评论 -
Grubbs Test
目的:检测异常值Grubbs的检验(Grubbs 1969和Stefansky 1972)用于检测单变量数据集中的单个异常值,该单变量数据集遵循近似正态分布。如果您怀疑可能存在多个异常值,建议您使用Tietjen-Moore测试或广义极端学生化偏差测试而不是Grubbs测试。格拉布斯的测试也称为最大标准残差测试。实际上,Grubbs' Test可理解为检验最大值、最小值偏离均值的程度...原创 2019-04-19 09:10:26 · 7854 阅读 · 1 评论 -
DDoS攻击流量检测方法
DDoS攻击流量检测方法检测分类1)误用检测误用检测主要是根据已知的攻击特征直接检测入侵行为。首先对异常信息源建模分析提取特征向量,根据特征设计针对性的特征检测算法,若新数据样本检测出相应的特征值,则发布预警或进行反应。优点:特异性,检测速度快,误报率低,能迅速发现已知的安全威胁。缺点:需要人为更新特征库,提取特征码,而攻击者可以针对某一特征码进行绕过。2)异常...翻译 2019-04-09 09:28:54 · 6281 阅读 · 1 评论 -
异常行为检测方法
1、统计学方法偏离训练集统计分布的任何东西都被认为是异常。最简单的统计学方法就是控制图。计算出训练集每个特性的平均和标准偏差,然后围绕平均值定义出阈值:k*标准偏差(k为通常在1.5到3.0之间的任意系数,取决于既定的算法保守程度)。在部署中正向或负向超出阈值的点就是异常事件的可疑备选。这种方法很好理解,也便于实现,而且执行很快,适用于静态及时间序列数据。然而,要检测更微妙的异常的话,...转载 2019-04-29 14:50:17 · 9432 阅读 · 0 评论 -
基于Web访问日志的异常行为检测
http://www.nsfocus.com.cn/upload/contents/2015/03/o_19feqnnqers3e4qjcu1u6ep3ob.pdf原创 2019-09-21 10:53:02 · 1054 阅读 · 0 评论 -
基于机器学习的Web日志异常检测实践
https://cloud.tencent.com/developer/article/1376126原创 2019-09-21 10:54:42 · 1530 阅读 · 1 评论 -
传统机器学习的web异常检测
https://netsec2018.files.wordpress.com/2017/12/e6b7b1e5baa6e5ada6e4b9a0e59ca8e7bd91e7bb9ce5ae89e585a8e4b8ade79a84e5ba94e794a8.pdf原创 2019-09-21 10:56:59 · 609 阅读 · 0 评论 -
基于机器学习的分布式webshell检测系统-特征工程
https://www.s0nnet.com/archives/fshell-feature-1原创 2019-09-21 10:58:36 · 705 阅读 · 1 评论 -
孤立森林(Isolation Forest)
著名的,人手一本的西瓜书(就是这本)的作者周志华老师,于2008年在第八届IEEE数据挖掘国际会议上提出孤立森林(Isolation Forest)算法,先简单解释一下什么是孤立森林:「假设我们用一个随机超平面来切割(split)数据空间(data space), 切一次可以生成两个子空间(想象拿刀切蛋糕一分为二)。之后我们再继续用一个随机超平面来切割每个子空间,循环下去,直到每子空间里...原创 2019-04-20 20:46:59 · 6896 阅读 · 1 评论