数据挖掘导论
文章平均质量分 73
Lang Grass
这个作者很懒,什么都没留下…
展开
-
第一章 绪论
数据挖掘的应用: 商务:借助pos数据收集技术获取用户的最新数据,利用关联分析可对用户分析、定向营销、欺诈检测和商店分布等。 医学、科学、工程 输入数据->数据预处理(维归约、特征选择、规范化、选择数据子集)->数据挖掘->后处理(模式过滤、可视化、模式表示)->信息 数据挖掘要解决的问题 可伸缩性 高维性 异种数据和复杂数据 数据的所有权和分布...原创 2018-10-23 15:27:56 · 102 阅读 · 0 评论 -
第八章(2) 聚类:凝聚层次聚类
有两种产生层次聚类的方法: 凝聚的:从点作为个体簇开始,每一步合并两个最接近的簇,这需要定义簇的邻近性概念 分裂的:从包含所有点的某个簇开始,每一步分裂一个簇,直到剩下单点簇,需要确定每一步分裂哪个簇,如何分裂 基本凝聚: 定义簇之间的邻近性:簇的邻近性通常用特定的簇类型定义;凝聚层次聚类源于基于图的聚类,有下面3种: MIN(单链):簇的邻近度为不同簇的两个最近的点之间的邻近度...原创 2018-10-24 00:16:49 · 3307 阅读 · 0 评论 -
第八章(1) 聚类:基本概念
聚类分析是将数据划分成有用的簇,如果目标是划分有用的组,则簇应当体现数据的自然结构;聚类分析只是解决问题的起点 聚类的目的: 用于理解的聚类:在对世界的分析和描述中,人类擅长将对象划分为簇,例如 生物学:界门纲目科属种 信息检索:面对网页的搜索结果,聚类将其分成若干簇,每个簇获取某个特定的方面 气候 医学 商业:利用顾客的信息将其分组 实用的聚类:聚类分析...原创 2018-10-24 00:16:33 · 920 阅读 · 0 评论 -
第七章(3) 关联分析:非频繁模式
非频繁模式是支持度<阈值的项集或规则 非频繁模式的应用: 利用数据中的负相关元素,有助于识别竞争项,找到某种商品的替代项 某些非频繁模式暗示了数据中出现了罕见的现象 挖掘非频繁模式的问题: 如何识别有用的非频繁模式 如何有效的在大型数据中发现它们 负模式: 负项集:有如下的性质: 负项集X=AU非B,其中A是正项的集合,非B是负项的集合,且至少有1个负项 ...原创 2018-10-24 00:16:18 · 1805 阅读 · 0 评论 -
第七章(2) 关联分析:子图模式
子图模式:将关联分析方法应用到复杂实体、文档数据的建模,运用到图形表示 频繁子图挖掘:在图的集合中发现一组公共子结构 图与子图:图是一种表示实体集之间联系的数据结构,由顶点集和连接顶点对的边集组成;当一个图的顶点集是另一个图的子集且其边集也是这个图的子集,那么前者是后者的子图;顶点vi是顶点的序列,而给每个顶点vi赋予一个标号l(vi)代表实体;每条边(vi,vj)也可以给予一个边标号l(vi...原创 2018-10-24 00:16:01 · 826 阅读 · 0 评论 -
第七章(1) 关联分析:高级概念
之前的项是非对称的二元属性,项组成事务,并且只有频繁模式是有用的;接下来探索的不同: 处理分类属性: 将分类属性和对称二元属性转换成项,就可以用已有的关联规则挖掘算法;将每个不同的属性-值对创建一个新的项(即转化为非对称二元属性)来实现 对于二元化后的数据,需要考虑: 有些属性值不够频繁,特别是具有很多可能属性值的分类属性;不能降低阈值,可以将相关的属性值分组,形成少数类别,或者将不频...原创 2018-10-24 00:15:44 · 944 阅读 · 0 评论 -
第六章(3) 关联分析:关联模式评估(客观度量)
关联分析会产生大量的模式,建立一组广泛接受的评价关联模式质量的标准是很重要的;分为两种: 通过统计论据建立:相互独立的项的模式或者覆盖少量事务的模式可能是伪联系;使用客观兴趣度度量:支持度、置信度、相关性 通过主观论据建立:模式被主观的判断,希望模式是提供有利信息的或者预料不到的,这需要来自领域专家的大量先验信息;主观信息加入到模式发现: 可视化 基于模板的方法 主观兴趣度度...原创 2018-10-24 00:15:27 · 3203 阅读 · 0 评论 -
第六章(2) 关联分析:FP增长算法
FP增长算法:使用FP树的紧凑数据结构组织数据,并从中提取频繁项集 FP树表示法:FP树是一种输入数据的压缩表示,把每个事务映射到FP树中的一条路径来构造;步骤: 扫描一次数据集,确定每个项的支持度,事务数据去除非频繁项,将事务中的项按支持度降序 第二次扫描数据集,构建FP树,读入第一个事务,路径上结点的频数计数为1 继续读入事务,如果有共同的前缀项则前缀项合并,计数+1,没有则...原创 2018-10-24 00:14:06 · 637 阅读 · 0 评论 -
第六章(1) 关联分析:基本概念
关联分析:发现隐藏在大型数据集中的有意义的联系;所发现的联系可以用关联规则和频繁项集来表示 两个问题: 从大型事务数据集中发现联系的开销大 所发现的联系需要验证 问题定义: 二元表示:购物篮事务每行对应一个事务,每列对应一个项,项在事务中的值为0或1,出现很重要,所以是非对称二元变量 项集和支持度计数:事务的宽度是事务中出现项的个数;项集的支持度计数即包含该项集的事务个数 ...原创 2018-10-23 15:33:20 · 1514 阅读 · 0 评论 -
第五章(4) 分类:人工神经网络
人工神经网络ANN由一组互相连接的结点和有向链构成 感知器:包含输入结点和一个输出结点,每个输入结点通过一个加权的链连接到输出结点,而权值代表神经元之间连接的强度,训练一个感知器模型相当于不断调整链的权值,直到拟合训练数据的输入输出关系为止 感知器的输入结点简单的把接收到的值传递给输出链,不做任何转换;输出结点则是计算输入的加权和,减去偏置项,然后根据结果产生输出 学习感知器模型:重点是权值...原创 2018-10-23 15:32:55 · 342 阅读 · 0 评论 -
第五章(3) 分类:贝叶斯分类器
在一些情况中,属性和类之间的关系是不确定的,产生这种情况的原因可能是噪声或是其他因素,所以,引入对属性集和类的概率关系的建模,即贝叶斯分类器,两种:朴素贝叶斯和贝叶斯信念网络 贝叶斯定理:先验知识在现实中的概率实现 贝叶斯定理在分类中的应用:在现实,它允许我们用先验概率、类条件概率、证据来表示后验概率,所以对类条件概率的估计就由朴素贝叶斯和贝叶斯信念网络来实现 朴素贝叶斯: 前提是假设属性...原创 2018-10-23 15:32:31 · 823 阅读 · 0 评论 -
第五章(2) 分类:最近邻分类器
积极学习方法:从训练记录中提取模型,对预测数据进行分类 消极学习方法:Rote分类器,记住整个训练数据,仅当测试实例的属性和某个训练样例完全匹配时才进行分类,缺点是某些测试记录不能被分类 更灵活的方法是找出和测试样例的属性相对接近的所有训练样例,这些训练样例即最近邻 最近邻分类器是把每个样例看作多维空间上的一个数据点,计算测试样例和训练集中其他数据点的邻近度(任意一种邻近度度量);给定样例z...原创 2018-10-23 15:32:08 · 3627 阅读 · 0 评论 -
第五章(1) 分类:基于规则的分类器
根据规则集来分类 分类规则的质量用覆盖率和准确率来度量 覆盖率=触发规则r的记录/所有记录 准确率=触发规则r且类标号正确的记录/触发规则r的记录 基于规则的分类器所产生的规则集的两个重要性质: 互斥规则:规则集中不存在两条规则被同一个记录触发 穷举规则:对属性值的任意组合,规则集中都有一条规则可以覆盖 两个规则共同作用的规则集,保证一条记录有且仅有被一条规则覆盖;当然,很...原创 2018-10-23 15:31:41 · 5272 阅读 · 0 评论 -
第四章(2) 分类:模型评估
模型的过分拟合 训练误差:即再代入误差或表现误差,即训练记录上错误分类的比例 泛化误差:模型在未知记录上的期望误差 一个好的分类模型应该具有低训练和泛化误差,而拟合度过高的模型,泛化误差可能高 模型的训练误差随着模型的复杂度增加而降低,但是检验误差可能很大(检验误差在一定程度上代表着泛化误差),因为树的结点可能拟合了噪音 造成过分拟合的因素 噪声导致过分拟合:训练集本身的错误...原创 2018-10-23 15:31:16 · 677 阅读 · 0 评论 -
第四章(1) 分类:决策树
分类任务就是确定对象属于哪个预定义的目标类 分类的属性集可以包含连续属性,但类标号必须是离散的,这是分类与回归的区别,回归的目标属性y是连续的 分类任务就是通过学习得到一个目标函数(分类模型),把属性集x映射到一个预先定义的类标号y 分类模型可以作为解释性工具,区分不同类中的对象;预测未知记录的类标号 分类技术适合二元或标称的数据集,不适用于序数或包含关系的属性 分类技术是一种根据输入数...原创 2018-10-23 15:30:37 · 662 阅读 · 0 评论 -
第三章 探索数据
汇总统计 频率和众数:无序、分类的属性 百分位数:有序的或连续的属性 位置度量:均值和中位数:递增排序的数据;截断均值:去除最高和最低的p%的数来计算均值 散布的度量:极差和方差:方差对离群值极其敏感,用稳健的值集散布度量,如IQR 多元统计汇总:多个对象有n个连续的属性时,用协方差矩阵;两个属性的协方差是两个属性一起变化并依赖于变量大小的度量;两个属性的线性相关程度,相关矩阵更...原创 2018-10-23 15:30:10 · 221 阅读 · 0 评论 -
第二章 相似性和相异性度量&数据&数据预处理
数据类型:定量、定性 属性是对象的性质、特征,测量标度是将数值或符号值与对象的属性相关联的规则(函数) 属性类型:属性的性质不必与用来度量他的值的性质相同 属性的不同:相异性、序、加法、乘法 四种属性类型:标称和序数(分类的、定性的)、区间和比率(数值的、定量的);非对称属性:如果属性值具有相同的权重,则为对称的;反之,为非对称的 数据集的类型: 数据集的特征:维度、稀疏性、分辨率 ...原创 2018-10-23 15:29:20 · 1031 阅读 · 0 评论 -
第八章(3) 聚类:DBSCAN和簇评估
基于密度的聚类寻找被低密度区域分离的高密度区域 传统的密度:基于中心的方法:数据集中特定点的密度通过对该点半径之内的点计数(包括本身)来估计,关键是确定半径;根据基于中心的密度进行点分类: 稠密区域内的点(核心点):点的邻域由距离函数和指定半径决定;定义是该点的给定邻域内的点的个数>给定的阈值,则为核心点 稠密区域边缘上的点(边界点):落在某个核心点的邻域内 稀疏区域中的点(噪声...原创 2018-10-24 00:17:18 · 5797 阅读 · 0 评论