数据分析(四)简单模型 VS 集成模型(概述)

  • 在数据分析所使用的模型中,不管是分类、回归还是聚类,都可划分为【简单模型】和【集成模型】。后者是以前者为基础的特定组合方式,我们在天池、Kaggle、Github 上看到的那些非常牛逼的模型基本上都是集成的。如果想深入地理解集成模型的原理、将其效果最大地发挥出来,首先得把简单模型学懂了。本文所列举的是最常见的模型。
  • 出于篇幅的考虑,这一篇文章先做个概述,之后再分模块成文。

简单模型

分类模型

概述

  • 对样本所属类别进行判断,实质上是用【多个其他特征】来表示【类别特征】
  • 对数据集的要求:每个样本需要同时包含【特征】和【标签】(又称类别信息)
  • 步骤:1、分类器的构造(俗称:训练模型);2、用测试集来检验分类器的性能;3、若性能达标,则可以用训练好的分类器来判断未分类样本的类别
  • 应用举例:市场精准营销(为了削减传媒成本,可以使用顾客购买记录、住址、收入、生活风格等等信息来判断是否为某产品的目标用户);欺诈检测(为了挖掘信用卡交易中的欺诈行为,可以用持卡人的交易时间、内容、履行信用次数等等信息来判断某次交易是否构成欺诈)

常见模型

  • 决策树:形为二叉树,模拟人的决策过程;关键词:节点不纯度;基尼指数,信息增益(率
  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值