序:对2004年文档《数据挖掘工具的评判》进行摘抄,对不了解的关键字进行标注,以备日后学习。
图1:数据挖掘工具评估的一般过程。
评估维度:
1. 数据存取
数据访问能力,根据数据源类型评定权重。
2. 数据处理
数据处理能力,根据常用操作类评定权重
基本数学变化:如log,Ln
数据分段:连续变量的数据分段
数据整合:数据表格的合并
数据过滤:数据的字段筛选或记录筛选
数据转换:字符型数据转换成数字型等
数据编码:无效数据编码或缺失数据编码等
数据随机采样
SQL支持
待理解关键字:
分类模型:预测购买率
过度采样(Stratified Sampling):通常分类预测比例过高采用此方法。
3. 模型算法
核心算法,根据常用算法评定权重
待理解关键字:
值预测:比如预测个人收入、客户贡献度、股票价格等
分类算法:比如用于风险评级、产品购买概率预测、客户流失预测等
聚类分析:比如用于客户分割、内幕交易监测等
4. 自动建模
挖掘工具自我优化,根据优化所需评定权重。
5. 可视化技术
挖掘工具可视化功能,根据常用方法评定权重。
待理解关键字:
Gain Lift图:评估、预测模型的效果好坏
2-D
饼图
树状显示:显示决策树结果
散点图:关联分析结果显示
线图:显示回归结果
ROC图:了解模型性能
6. 其它
附属功能,根据重要程度评定权重。
7.综合评定