预测任务:根据其他属性的值,预测特定属性的值。
通常
数据挖掘的任务
描述任务:导出概括数据中潜联系的模式
四种主要的数据挖掘任务:预测建模、关联分析、聚类分析、异常检测
预测建模: 分类:用于预测离散的目标变量
回归:用于预测连续的目标变量
关联分析:用于发现描述数据中强关联特征的模式。
聚类分析:旨在发现紧密相关的观测值组群,是的与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能的相似。
异常检测:识别器特征显著不同于其他数据的观测值。这样的观测值称为异常点,或离群点。
维度:数据集的维度是数据集中的对象具有的属性数目。低维度数据往往与中、高维度数据有质的不同。数据预处理的一个重要动机就是减少维度,成为维归约。
稀疏性:有些数据集,如果具有非对称特征的数据集,一个对象的大部分属性上的值都为0;在许多情况下,非零项还不到1%。(非对称属性:eg:对于某个学生,选修某门课程为1,否则取值0.由于学生只选择了所有课程中的一小部分。所以数据集的大部分值都是0)
分辨率:常常可以在不同的分辨率下得到数据,并且在不同的分辨率下数据的性质也不同。(以几米或者几十米分辨率观测地球表面)
。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
离群点:在某种意义上具有不同于数据集中其他大部分数据对象的特征的数据对象,或是相对于该属性的典型值来说不寻常的属性值。
数据预处理:
聚集: 将两个或多个对象合并成单个对象。
无放回抽样
简单随机抽样
有放回抽样
抽样
分层抽样:从预先制定的组开始抽样
维归约
嵌入
特征子集选择 过滤
包装
特征加权:特征加权是另一种保留或删除特征的办法。特征越重要,所赋予的权值越大
相似性和相异性的度量
用邻近度表示相似性或相异性。
相似度定义两个对象相似程度的数值度量
相异度定义两个对象差异程度的数值度量
分类:分类任务就是通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y
决策树归纳
根结点:它没有入边,但有零条或多条出边
内部结点:恰有一条入边和两条或多条出边
叶结点或终结点:恰有一条入边,但没有出边