数据挖掘导论学习笔记
菜鸡的鼻祖
这个作者很懒,什么都没留下…
展开
-
数据——数据预处理
1. 聚集概念:将两个或多个对象合并成单个对象。优点:a.数据归约导致的较小数据集需要较少的内存和处理时间。 b.对象或属性群的行为通常比单个对象或属性的行为更加稳定。缺点:可能丢失有趣的细节。2.抽样概念:选择数据对象子集进行分析。优点:可以压缩数据量...原创 2019-02-21 21:21:20 · 413 阅读 · 0 评论 -
分类——预备知识
1.分类和回归的区别:其实分类和回归的本质是一样的,都是对输入做出预测,其区别在于输出的类型。分类问题:分类问题的输出是离散型变量(如: +1、-1),是一种定性输出。(预测明天天气是阴、晴还是雨)回归问题:回归问题的输出是连续型变量,是一种定量输出。(预测明天的温度是多少度)。2.分类问题的一般方法:决策树分类法基于规则的分类法神经网络支持向量机朴素贝叶斯分类法...原创 2019-02-22 15:48:56 · 114 阅读 · 0 评论 -
分类——决策树归纳
Hunt算法概念Hunt算法是一种采用局部最优策略的决策树构建算法,它同时也是许多决策树算法的基础,包括ID3,C4.5和CART等。在Hunt算法中,通过将训练记录相继划分成较纯的子集,以递归方式建立决策树。设Dt是与结点t相关联的训练记录集,而y={y1,y2,⋯,yc}是类标号,Hunt算法的递归定义如下:(1) 如果 Dt 中所有记录都属于同一个类 yt,则 t 是叶结点,用 yt...原创 2019-02-22 18:14:43 · 502 阅读 · 0 评论 -
分类——模型评估
分类模型的误差1.训练误差:也称再代入误差或表现误差,是在训练记录上误分类样本比例(拟合训练数据的程度)。2.泛化误差:模型在未知记录上的期望误差(对未知样本分类的能力)。模型拟合问题1.模型拟合不足:当决策树很小时,训练和检验误差都很大。2.模型过拟合:随着决策树中结点数的增加,模型的训练误差和检验误差都会随之降低,一旦树的规模变得太大,即使训练误差还在继续降低,但是检验误差开始增大。...原创 2019-02-22 18:54:22 · 376 阅读 · 0 评论 -
分类——其他技术
一.基于规则的分类器(1)概念:基于规则的分类器是使用一组“if…then…”规则来对记录进行分类的技术。(2)规则提取方法1.直接法:直接从数据中提取分类规则。a. 顺序覆盖算法:决定提取类 y 的规则后,类 y 的所有训练记录被看做是正例,而其他类的训练记录则被当成反例,如果一个规则覆盖大多数正例,没有或仅覆盖极少数反例,那么该规则是可取的。找到这样规则后,删掉它所覆盖的训练记录,再...原创 2019-04-03 22:01:52 · 1143 阅读 · 0 评论 -
关联——基本概念和算法
一.基本概念1.关联规则(Association Rules):关联规则是反映一个事物与其他事物之间的相互依存性和关联性,是数据挖掘的一个重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系。2.支持度(support):在X→Y关联规则下,同时出现{X,Y}的项集占总项集的概率:该指标作为建立强关联规则的第一个门槛,通过最小阈值(minSup)的设定,来剔除那些 “出镜率” ...原创 2019-04-10 21:37:07 · 3192 阅读 · 0 评论