DEEP LEARNING FOR ANOMALY DETECTION : A SURVEY 笔记
- 学习笔记,如有谬误,还请不吝赐教!
-
- 瞎BB以及不错的链接
- 还不散,那就看文章吧,反正我也是google翻译的~
-
- 1. Introduction
- 2,3. 何为异常和新颖
- 4. 动机和挑战
- 5,6,7 略(嗯,博主就是这么敷衍...)
- 8. DAD的不同方面
- 9 Applications of Deep Anomaly Detection
-
- 9.1 Intrusion Detection 入侵
- 9.2 Fraud Detection 欺诈
- 9.3 Malware Detection 恶意软件
- 9.4 Medical Anomaly Detection 医学
- 9.5 Deep learning for Anomaly detection in Social Networks
- 9.6 Log Anomaly Detection
- 9.7 Internet of things (IoT) Big Data Anomaly Detection
- 9.8 Industrial Anomalies Detection
- 9.9 Anomaly Detection in Time Series
- 9.10 Video Surveillance 监控
- 10 Deep Anomaly Detection (DAD) Models
- 后记
学习笔记,如有谬误,还请不吝赐教!
瞎BB以及不错的链接
失踪人口回归?趁着领导们都不在来博客摸个鱼?!!!
入职之后头头儿让我搞异常检测,搞一个模型,训练集只有正常图片,要检测出异常的图片… 而且,最麻烦的是,这个是要做到像素级检测的,不止要找出异常图像,还要指出异常的位置在哪里。而这就和大多数做图像异常检测方法不一样了。
但毕竟温故而知新,拖师妹的福,给了两个github的链接,整理了一些异常检测的论文,包括综述(找论文也上GitHub?!学习了!!)。先放上码住!(排名不分先后)
第一链接.
https://github.com/kc-ml2/journal-lub/blob/ceaa45c5822f55d8060afdab907280d3e47b9288/past/2019-06-12-anomaly-detection.md
第二链接.
https://github.com/zhuyiche/awesome-anomaly-detection
很好,以上就是本篇博客最有价值的部分,散了散了~~
还不散,那就看文章吧,反正我也是google翻译的~
正文为提取的文章中比较有用的内容(没错 就是断章取义的意思!),括号内的内容为个人理解(就是瞎bb)
1. Introduction
随着数据量的增加,深度异常检测( deep anomaly detection (DAD))相较传统的异常检测方法具有明显的优势。
2,3. 何为异常和新颖
(其实文章也没有给出一个严格的定义,个人理解就是除了正常都是异常。怎么定义正常呢?用数据。)
这里就放个图吧
还挺形象的哈
4. 动机和挑战
diss传统方法:
1.传统方法难以获取数据中的复杂结构(比如医学图像)
2.传统方法难以处理大数据量
夸一下深度学习:
3.深度异常检测(DAD)技术可从数据中学习分层区分特征。这种自动特征学习功能消除了领域专家开发手动特征的需要,因此提倡解决端对端问题,即在文本和语音识别等领域中采用原始输入数据。
说一下异常检测的共同难题:
4.正常和异常(错误)行为之间的界限通常无法在几个数据域中精确定义,并且还在不断发展。对于常规算法和基于深度学习的算法而言,缺乏明确定义的代表性法线边界都带来了挑战。(模糊数学的用武之地?!!)
5,6,7 略(嗯,博主就是这么敷衍…)
8. DAD的不同方面
8.1 数据性质
1.顺序输入,例如,语音,文本,音乐,时间序列,蛋白质序列
2.非顺序数据,例如,图像
相应的深度学习模型见下表
或者
1.低维
2.高维
DAD技术已被用来学习高维原始输入数据中的复杂层次特征关系(LeCun等[2015])。 DAD技术中使用的层数受输入数据维数的驱动,显示出更深的网络可在高维数据上产生更好的性能。 随后,在第10节中,深入探讨了考虑用于离群值检测的各种模型。(啊 第10节 我都不一定读的到那里…)
8.2 基于标记信息
(1) Supervised deep anomaly detection.
(2) Semi-supervised deep anomaly detection.
(3) Unsupervised deep anomaly detection.
8.2.1 Supervised deep anomaly detection
监督的异常检测就是分类问题,可以检测稀有品牌,检测禁药名称和欺诈性医疗保健交易,但由于1.异常标签不好获取,2.存在严重的类不平衡问题导致分类器效果不咋地,所以本文不讨论这个方法(弃子!!!)
8.2.2 Semi-supervised deep anomaly detection
半监督技术在异常检测中使用更为广泛,常用自编码方式(用正常图像训练自编码,异常图像就会有较大的重构误差,从而达到异常检测的目的,半监督的半应该是要通过异常图像来选择重构误差的阈值,所以训练虽然只有正常图像,但还是需要异常图像参与其中的。)
8.2.3 Unsupervised deep anomaly detection
这个没太看懂,先贴上中英双文,谨防误人子弟… 再说我看懂的…
######################################## 原文 #######################################
Unsupervised deep anomaly detection techniques detect outliers solely based on intrinsic properties of the data instances. Unsupervised DAD techniques are used in automatic labeling of unlabelled data samples since labeled data is very hard to obtain (Patterson and Gibson [2017]). Variants of Unsupervised DAD models (Tuor et al. [2017]) are shown to outperform traditional methods such as principal component analysis (PCA) (Wold et al. [1987]), support vector machine (SVM) Cortes and Vapnik [1995] and Isolation Forest (Liu et al. [2008]) techniques in applications domains such as health and cyber-security. Autoencoders are the core of all Unsupervised DAD models. These models assume a high prevalence of normal instances than abnormal data insta