决策树分类算法一般分为两个步骤:决策树生成和决策树修剪,运用决策树分析法,可以找到酸奶的目标人群市场,通过此次决策树分析,我们得出中收入的未婚和离异的男性为目标市场人群。
一、数据分析
首先计算熵和信息增益。样本的概率分布越均衡,它的信息量(熵)就越大,样本集的混杂程度就越高,信息增益越大,说明属性对分类提供的信息越多。
共有三种不同影响因素,即性别、收入、婚姻状况,一个结果(yes/no)
信息熵: Ent(S)=-
当性别为男时,4个no,3个yes
Ent(S,性别=男)=-3/7*
当性别为女时,3个no
Ent(S,性别=女)=0
条件熵:Ent(S,性别)=7/10* Ent(S,男)+3/10* Ent(S,女)=0.6901
信息增益:Gain(S,性别)= Ent(S)-Ent(S,性别)=0.1912
同理可得:
Gain(S,收入)=0.5568
Gain(S,婚姻状况)=0.2813
通过计算得出收入的信息增益最大,故把收入作为根节点。
然后对收入分类下的三种情况,分别求对应的信息增益:因为高收入和低收入只有no,所以不用计算。中收入情况下既有yes又有no,还需要继续分枝,计算得出婚姻状况的信息增益最大,将婚姻状况设为节点。由于婚姻状况下的子节点中的样本属于同一类,故终止。
二、决策树
三、准确率
1) True positives(TP):被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的实例数(样本数) ;
2) False positives(FP):被错误地划分为正例的个数,即实际为负例但被分类器划分为正例的实例数;
3) False negatives(FN):被错误地划分为负例的个数,即实际为正例但被分类器划分为负例的实例数;
4) True negatives(TN):被正确地划分为负例的个数,即实际为负例且被分类器划分为负例的实例数。
准确率=(TP+ TN)/( TP+ FP+ FN+TN)
训练数据:(3+7)/(3+0+0+7)*100%=100%
测试数据:(TP+ TN)/( TP+ FP+ FN+TN)=0+2/0+1+1+2=1/2
四、总结与建议
1、 中等收入的未婚和离异男性为目标市场消费人群,可针对这类消费者推出各种促销活动。
2、保证产品质量,提高顾客的忠诚度。
3、创新产品,推出更多类型酸奶,吸引新的消费群体,开拓市场。