数据分析(四)简单模型 VS 集成模型(概述)
- 在数据分析所使用的模型中,不管是分类、回归还是聚类,都可划分为【简单模型】和【集成模型】。后者是以前者为基础的特定组合方式,我们在天池、Kaggle、Github 上看到的那些非常牛逼的模型基本上都是集成的。如果想深入地理解集成模型的原理、将其效果最大地发挥出来,首先得把简单模型学懂了。本文所列举的是最常见的模型。
- 出于篇幅的考虑,这一篇文章先做个概述,之后再分模块成文。
简单模型
分类模型
概述
- 对样本所属类别进行判断,实质上是用【多个其他特征】来表示【类别特征】
- 对数据集的要求:每个样本需要同时包含【特征】和【标签】(又称类别信息)
- 步骤:1、分类器的构造(俗称:训练模型);2、用测试集来检验分类器的性能;3、若性能达标,则可以用训练好的分类器来判断未分类样本的类别
- 应用举例:市场精准营销(为了削减传媒成本,可以使用顾客购买记录、住址、收入、生活风格等等信息来判断是否为某产品的目标用户);欺诈检测(为了挖掘信用卡交易中的欺诈行为,可以用持卡人的交易时间、内容、履行信用次数等等信息来判断某次交易是否构成欺诈)
常见模型
- 决策树:形为二叉树,模拟人的决策过程;关键词:节点不纯度;基尼指数,信息增益(率