《数据挖掘技术》读书笔记

最新推荐文章于 2019-04-12 17:19:50 发布

AI专家

最新推荐文章于 2019-04-12 17:19:50 发布

阅读量1.4k

点赞数

分类专栏：机器学习修炼之路专家之道

本文链接：https://blog.csdn.net/weixin_42039090/article/details/80738117

版权

机器学习同时被 3 个专栏收录

78 篇文章 15 订阅

订阅专栏

专家之道

70 篇文章 1 订阅

订阅专栏

修炼之路

61 篇文章 2 订阅

订阅专栏

离群点检测技术

离群点检测又称为异常检测是找出其行为很不同于预期对象的过程。

离群点检测和聚类分析是两项高度相关的任务。聚类发现数据集中的多数模式并据此组织数据。而离群点检测则试图捕获那些显著偏离多数模式的异常情况。

什么是离群点。假定使用一个给定的统计过程来产生数据对象集。离群点是一个数据对象，它显著不同于其他数据对象。噪声是被观测变量的随机误差或方差。在离群点检测之前删除噪声的。
新颖性检测：通过检测新内容不断出现的社会媒体网站，新颖性检测可以及时地识别新的主题和趋势。
离群点的类型分为：全局离群点、情境离群点和集体离群点。
全局离群点：关键是找到一个合适的偏离度量。
情境离群点：关键取决于情境-时间、地点和可能的其他因素。
又称为条件离群点，条件地依赖于选定的情境。
情境属性：数据对象的情境属性定义对象的情境。
行为属性：定义对象的特征，并用来评估对象关于它所处的情境是否属于离群点。情境离群点依赖于李全店的定义，情境属性多半由领域专家确定。
集体离群点：给定一个数据集，数据对象的一个子集形成集体离群点，如果这些对象作为整体显著偏离整个数据集。重要的是，个体数据对象可能不是离群点。股票交易中出现的集体离群点问题。
离群点检测的挑战：正常对象和离群点的有效建模。针对应用的离群点检测。在离群点检测中处理噪声；可理解性。
离群点检测的方法：根据用于分析的数据样本是否具有领域专家提供的、可以用来构建离群点检测模型的标号；第二就是根据各种方法关于正常对象和离群点的假定，对各方法分组。
监督方法：离群点检测的监督方法必须注意如何训练和如何解释分类率。
无监督方法：预料正常对象遵守比离群点频繁的模式。
离群点检测的三种基本方法：统计学方法、基于邻近性的方法、基于聚类的检测离群点方法。统计方法：正常对象出现在该随机模型的高概率区域中，而低概率区域中的对象是离群点。非参数估计有直方图和核密度估计方法。
参数方法有：基于正态分布的一元离群点检测。多元属性或变量的数据，使用马哈拉诺比斯距离检测多元离群点。使用X²统计量的多元离群点。使用混合参数分布。使用混合参数分布检测多元离群点。使用多个簇检测多元离群点。
非参数方法：构造直方图，检测离群点；基于距离的方式、基于密度的方式、基于聚类的方式。把离群点检测为不属于任何簇的对象。通过基于聚类的离群点检测进行入侵检测。检测小簇中的离群点。基于分类的方法：就是建立分类模型，可以分出正常对象和离群点的模型。
情境离群点检测和集体离群点：情境可以在不同的粒度下指定。通过使用连接情境和行为的预测模型，这些方法避免直接之别具体情境。许多分类和预测技术都可以用来构建这种模型。比如：回归、马尔科夫模型和有穷状态自动机。
对于高维离群点建模方式：基于角的离群点。点离簇越远，点的角度的方差越小，ABOF越小。基于角度的离群点检测方法（ABOD）对每个点计算ABOF，并且按ABOF递增序输出数据集中的点的列表。可以用近似的ABOF计算方法加快计算速度，这种方法可以用来处理任意类型的数据。

数据挖掘的发展趋势和研究前沿

挖掘复杂的数据类型。

包括：序列数据、图与网络、其他类型数据。

挖掘序列数据：时间序列、符号序列和生物学序列。股票市场、科学、医学或者自然观测属于时间序列；符号序列由事件或标称数据的长序列组成，通常不是相等的时间间隔观测。生物学薛烈包括DNA和蛋白质序列。这种序列通常很长，携带重要的、复杂的、隐藏的语义。
包括：时间序列数据的相似性搜索、时间序列数据的回归和趋势分析（趋势或者长期动向、周期动向、季节变化、随机动向等）、符号序列中的序列模式挖掘。（符号序列由元素或事件的有序集组成，记录或未记录具体时间），序列模式挖掘广泛的关注挖掘符号序列模式。基于约束的序列模式挖掘。
序列分类、生物学序列比对、序列比对。生物学序列分析的隐马尔科夫模型。
挖掘图和网络。图模式挖掘、网络的统计建模、通过网络分析进行数据清理、集成和验证。图和同质网络的聚类与分类、异质网络的聚类、秩评定和分类；信息网络中的角色发现和链接预测；信息网络的相似性搜索和OLAP；社会与信息网络的演变。
挖掘其他类型的数据：挖掘空间数据；挖掘时空数据和移动对象；挖掘信息物理系统数据。挖掘多媒体数据；挖掘文本数据、挖掘web数据、挖掘数据流。
挖掘的其他方法：统计学数据挖掘包括回归、广义线性模型、方差分析、混合效应模型、因素分析、判别式分析、生存分析。
数据挖掘的基础：数据规约、数据压缩、概率统计理论、微观经济学观点、模式返现和归纳数据库。数据可视化、数据挖掘结果可视化、数据挖掘过程可视化、交互式可视数据挖掘、听觉数据挖掘。数据规约：采用奇异值分解、小波、回归、对数线性模型、直方图、聚类、抽样和索引树的构造。数据压缩：根据这一理论，数据挖掘的基础是通过位编码、关联规则、决策树、聚类等压缩给定数据。概率统计理论，微观经济学观点。模式发现和归纳数据库。
可视和视觉数据挖掘：使用数据和知识可视化技术。从大型数据集中发现隐含的和有用的知识。数据可视化和数据挖掘不断进行融合。
数据挖掘的应用：
金融数据分析的数据挖掘；零售和电信业的数据挖掘；科学和工程数据挖掘；入侵检测和预防数据挖掘。
数据挖掘与推荐系统。
数据挖掘与社会。
数据挖掘的发展趋势：
应用探索、可伸缩的和交互的各种挖掘方法、可伸缩的和交互的数据挖掘方法；与搜索引擎、数据库系统、数据仓库系统和云计算系统的集成。
挖掘社会和信息网络。
挖掘时间空间数据、移动对象和信息物理系统。
挖掘多媒体、文本和web数据。
挖掘生物学和生物医学数据。
数据挖掘与软件工程和系统工程。
可视和听觉数据挖掘。
分布式数据挖掘和实时数据流挖掘。
数据挖掘中的隐私保护和信息安全。