excel决策树_酸奶决策树分析

该博客介绍了如何运用决策树算法确定酸奶的目标消费人群。通过计算熵、信息增益等指标,分析发现中等收入的未婚和离异男性是主要目标市场。建议针对这一群体进行市场推广,同时注重产品质量和创新,以吸引和保持消费者。
摘要由CSDN通过智能技术生成

决策树分类算法一般分为两个步骤:决策树生成和决策树修剪,运用决策树分析法,可以找到酸奶的目标人群市场,通过此次决策树分析,我们得出中收入的未婚和离异的男性为目标市场人群。

一、数据分析

首先计算熵和信息增益。样本的概率分布越均衡,它的信息量(熵)就越大,样本集的混杂程度就越高,信息增益越大,说明属性对分类提供的信息越多。

共有三种不同影响因素,即性别、收入、婚姻状况,一个结果(yes/no)

信息熵: Ent(S)=-

=-0.3*
0.3-0.7*
0.7=0.8813

当性别为男时,4个no,3个yes

Ent(S,性别=男)=-3/7*

3/7-4/7*
4/7=0.9859

当性别为女时,3个no

Ent(S,性别=女)=0

条件熵:Ent(S,性别)=7/10* Ent(S,男)+3/10* Ent(S,女)=0.6901

信息增益:Gain(S,性别)= Ent(S)-Ent(S,性别)=0.1912

同理可得:

Gain(S,收入)=0.5568

Gain(S,婚姻状况)=0.2813

通过计算得出收入的信息增益最大,故把收入作为根节点。

然后对收入分类下的三种情况,分别求对应的信息增益:因为高收入和低收入只有no,所以不用计算。中收入情况下既有yes又有no,还需要继续分枝,计算得出婚姻状况的信息增益最大,将婚姻状况设为节点。由于婚姻状况下的子节点中的样本属于同一类,故终止。

二、决策树

f23787540e6fffcf030824ecc49ad1e4.png

三、准确率

1) True positives(TP):被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的实例数(样本数) ;

2) False positives(FP):被错误地划分为正例的个数,即实际为负例但被分类器划分为正例的实例数;

3) False negatives(FN):被错误地划分为负例的个数,即实际为正例但被分类器划分为负例的实例数;

4) True negatives(TN):被正确地划分为负例的个数,即实际为负例且被分类器划分为负例的实例数。

准确率=(TP+ TN)/( TP+ FP+ FN+TN)

训练数据:(3+7)/(3+0+0+7)*100%=100%

测试数据:(TP+ TN)/( TP+ FP+ FN+TN)=0+2/0+1+1+2=1/2

四、总结与建议

1、 中等收入的未婚和离异男性为目标市场消费人群,可针对这类消费者推出各种促销活动。

2、保证产品质量,提高顾客的忠诚度。

3、创新产品,推出更多类型酸奶,吸引新的消费群体,开拓市场。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值