《数据挖掘技术》读书笔记



离群点检测技术

离群点检测又称为异常检测是找出其行为很不同于预期对象的过程。

离群点检测和聚类分析是两项高度相关的任务。聚类发现数据集中的多数模式并据此组织数据。而离群点检测则试图捕获那些显著偏离多数模式的异常情况。

  1. 什么是离群点。假定使用一个给定的统计过程来产生数据对象集。离群点是一个数据对象,它显著不同于其他数据对象。噪声是被观测变量的随机误差或方差。在离群点检测之前删除噪声的。

  2. 新颖性检测:通过检测新内容不断出现的社会媒体网站,新颖性检测可以及时地识别新的主题和趋势。

  3. 离群点的类型分为:全局离群点、情境离群点和集体离群点。

  4. 全局离群点:关键是找到一个合适的偏离度量。

  5. 情境离群点:关键取决于情境-时间、地点和可能的其他因素。

    又称为条件离群点,条件地依赖于选定的情境。

    情境属性:数据对象的情境属性定义对象的情境。

    行为属性:定义对象的特征,并用来评估对象关于它所处的情境是否属于离群点。情境离群点依赖于李全店的定义,情境属性多半由领域专家确定。

  6. 集体离群点:给定一个数据集,数据对象的一个子集形成集体离群点,如果这些对象作为整体显著偏离整个数据集。重要的是,个体数据对象可能不是离群点。股票交易中出现的集体离群点问题。

  7. 离群点检测的挑战:正常对象和离群点的有效建模。针对应用的离群点检测。在离群点检测中处理噪声;可理解性。

  8. 离群点检测的方法:根据用于分析的数据样本是否具有领域专家提供的、可以用来构建离群点检测模型的标号;第二就是根据各种方法关于正常对象和离群点的假定,对各方法分组。

  9. 监督方法:离群点检测的监督方法必须注意如何训练和如何解释分类率。

  10. 无监督方法:预料正常对象遵守比离群点频繁的模式。

  11. 离群点检测的三种基本方法:统计学方法、基于邻近性的方法、基于聚类的检测离群点方法。统计方法:正常对象出现在该随机模型的高概率区域中,而低概率区域中的对象是离群点。非参数估计有直方图和核密度估计方法。

  12. 参数方法有:基于正态分布的一元离群点检测。多元属性或变量的数据,使用马哈拉诺比斯距离检测多元离群点。使用X2统计量的多元离群点。使用混合参数分布。使用混合参数分布检测多元离群点。使用多个簇检测多元离群点。

  13. 非参数方法:构造直方图,检测离群点;基于距离的方式、基于密度的方式、基于聚类的方式。把离群点检测为不属于任何簇的对象。通过基于聚类的离群点检测进行入侵检测。检测小簇中的离群点。基于分类的方法:就是建立分类模型,可以分出正常对象和离群点的模型。

  14. 情境离群点检测和集体离群点:情境可以在不同的粒度下指定。通过使用连接情境和行为的预测模型,这些方法避免直接之别具体情境。许多分类和预测技术都可以用来构建这种模型。比如:回归、马尔科夫模型和有穷状态自动机。

  15. 对于高维离群点建模方式:基于角的离群点。点离簇越远,点的角度的方差越小,ABOF越小。基于角度的离群点检测方法(ABOD)对每个点计算ABOF,并且按ABOF递增序输出数据集中的点的列表。可以用近似的ABOF计算方法加快计算速度,这种方法可以用来处理任意类型的数据。

     

    数据挖掘的发展趋势和研究前沿

  1. 挖掘复杂的数据类型。

包括:序列数据、图与网络、其他类型数据。

  1. 挖掘序列数据:时间序列、符号序列和生物学序列。股票市场、科学、医学或者自然观测属于时间序列;符号序列由事件或标称数据的长序列组成,通常不是相等的时间间隔观测。生物学薛烈包括DNA和蛋白质序列。这种序列通常很长,携带重要的、复杂的、隐藏的语义。

    包括:时间序列数据的相似性搜索、时间序列数据的回归和趋势分析(趋势或者长期动向、周期动向、季节变化、随机动向等)、符号序列中的序列模式挖掘。(符号序列由元素或事件的有序集组成,记录或未记录具体时间),序列模式挖掘广泛的关注挖掘符号序列模式。基于约束的序列模式挖掘。

    序列分类、生物学序列比对、序列比对。生物学序列分析的隐马尔科夫模型。

  2. 挖掘图和网络。图模式挖掘、网络的统计建模、通过网络分析进行数据清理、集成和验证。图和同质网络的聚类与分类、异质网络的聚类、秩评定和分类;信息网络中的角色发现和链接预测;信息网络的相似性搜索和OLAP;社会与信息网络的演变。

  3. 挖掘其他类型的数据:挖掘空间数据;挖掘时空数据和移动对象;挖掘信息物理系统数据。挖掘多媒体数据;挖掘文本数据、挖掘web数据、挖掘数据流。

  4. 挖掘的其他方法:统计学数据挖掘包括回归、广义线性模型、方差分析、混合效应模型、因素分析、判别式分析、生存分析。

  5. 数据挖掘的基础:数据规约、数据压缩、概率统计理论、微观经济学观点、模式返现和归纳数据库。数据可视化、数据挖掘结果可视化、数据挖掘过程可视化、交互式可视数据挖掘、听觉数据挖掘。数据规约:采用奇异值分解、小波、回归、对数线性模型、直方图、聚类、抽样和索引树的构造。数据压缩:根据这一理论,数据挖掘的基础是通过位编码、关联规则、决策树、聚类等压缩给定数据。概率统计理论,微观经济学观点。模式发现和归纳数据库。

  6. 可视和视觉数据挖掘:使用数据和知识可视化技术。从大型数据集中发现隐含的和有用的知识。数据可视化和数据挖掘不断进行融合。

  7. 数据挖掘的应用:

    金融数据分析的数据挖掘;零售和电信业的数据挖掘;科学和工程数据挖掘;入侵检测和预防数据挖掘。

  8. 数据挖掘与推荐系统。

  9. 数据挖掘与社会。

  10. 数据挖掘的发展趋势:

    应用探索、可伸缩的和交互的各种挖掘方法、可伸缩的和交互的数据挖掘方法;与搜索引擎、数据库系统、数据仓库系统和云计算系统的集成。

    挖掘社会和信息网络。

    挖掘时间空间数据、移动对象和信息物理系统。

    挖掘多媒体、文本和web数据。

    挖掘生物学和生物医学数据。

    数据挖掘与软件工程和系统工程。

    可视和听觉数据挖掘。

    分布式数据挖掘和实时数据流挖掘。

    数据挖掘中的隐私保护和信息安全。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值