数据挖掘
franwee
大数据hadoop
展开
-
数据挖掘之算法框架
原创 2015-10-07 11:01:56 · 372 阅读 · 0 评论 -
数据挖掘之基础概念二
通过比较父节点(划分前)的不纯程度和子女结点(划分后)的不纯度,他们的差越大,测试条件的效果越好。增益 是一种可以用来确定划分效果的标准:其中I 是给定结点的不纯性度量,N是父节点上的记录总数,K 是属性的个数,N是与子女结点v 相关联的记录个数两个不同类的相邻区域之间的边界称作决策边界。 模型的过拟合 分类模型的误差大致分为两张:训练误差(再代入误差或表现误差),原创 2015-10-07 10:58:13 · 849 阅读 · 0 评论 -
数据挖掘之K-Mean
原创 2015-10-07 11:09:19 · 381 阅读 · 0 评论 -
数据挖掘之基础概念
预测任务:根据其他属性的值,预测特定属性的值。通常数据挖掘的任务 描述任务:导出概括数据中潜联系的模式 四种主要的数据挖掘任务:预测建模、关联分析、聚类分析、异常检测 预测建模: 分类:用于预测离散的目标变量 回归:用于预测连续的目标变量关联分析:用于发现描述数据中强关联特征的原创 2015-10-07 10:55:14 · 452 阅读 · 0 评论