数据挖掘
LEELOTOUS
加油
展开
-
数据分类与聚类的区别
一、分类 利用分类技术可以从数据集中提取描述数据类的一个函数或模型(也常称分类器),并把数据集中的每个对象归结到某个已知的对象类中。从机器学习的观点,分类技术是一种有指导的学习,即每个训练样本的数据对象已经有类标识,通过学习可以形成表达数据对象与类表示间对应的知识。即数据挖掘的目标就是根据样本数据形成的类的知识并对源数据进行分类,进而也可以预测未来数据的归类。 分类技术具有广泛的应用,...原创 2018-03-13 19:07:45 · 3182 阅读 · 0 评论 -
关于数据挖掘学习中的知识补充
一、熵(Entropy)用于决策树的属性选择函数,定义为其属性的不纯性度量,发生概率越低的事件,其所携带的熵越低。满足以下几个条件:1.当结点很纯时,其度量值为0;2.当不纯性最大时,其度量值最大;3.度量应该服从多级特性,使得决策树可以分阶段建立起来。其中pi为比例值。二、信息增益(Info Gain)信息增益,即前后信息的差值,对于决策树分类问题而言,指的是决策树在进行属性选择划分前后的信息差...原创 2018-03-21 16:23:39 · 291 阅读 · 0 评论