决策树 结构_订阅者决策树数据分析

1. 原理分析:

决策树原理介绍1.决策树原理决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。直观看上去,决策树分类器就像判断模块和终止块组成的流程图,终止块表示分类结果(也就是树的叶子)。判断模块表示对一个特征取值的判断(该特征有几个值,判断模块就有几个分支)。2.ID3算法原理介绍(1)信息熵:在概率论中,信息熵给了我们一种度量不确定性的方式,是用来衡量随机变量不确定性的,熵就是信息的期望值。越不确定的事物,它的熵就越大。具体的,随机变量X的熵的表达式如下:,从定义中可知:0≤H(X)≤log(n)  当随机变量只取两个值时,即X的分布为 P(X=1)=p,X(X=0)=1−p,0≤p≤1则为:H(X)=−plog2(p)−(1−p)log2(1−p)。熵值越高,则数据混合的种类越高,其蕴含的含义是一个变量可能的变化越多(反而跟变量具体的取值没有任何关系,只和值的种类多少以及发生概率有关),它携带的信息量就越大。(2)信息增益  信息增益(information gain)表示得知特征X的信息后,而使得Y的不确定性减少的程度。定义为:3.决策树生成过程一棵决策树的生成过程主要分为以下3个部分:特征选择:特征选择是指从训练数据中众多的特征中选择一个特征作为当前节点的分裂标准,如何选择特征有着很多不同量化评估标准标准,从而衍生出不同的决策树算法。决策树生成: 根据选择的特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止决策树停止生长。 树结构来说,递归结构是最容易理解的方式。剪枝:决策树容易过拟合,一般来需要剪枝,缩小树结构规模、缓解过拟合。剪枝技术有预剪枝和后剪枝两种。4.决策树特征选择参考原则:信息增益二、项目目的通过使用决策树的分析方法分析出训练数据中目标客户的规则(比如:中等收入的男性是目标客户),并且计算所给规则分别在训练数据和测试数据上的准确率。

Modeler原理:Modeler是一款数据挖掘软件,建模的原理主要偏向于数学算法,比如各种聚类算法、各种决策树算法、神经网络算法、贝叶斯算法等等。目的就是通过对数据的整理、建模,挖掘出相关结果,指导管理实际。主要应用于数据量大的分析,或者连接至数据库进行分析。

2. 分析过程:

本次目标是分析影响订阅者是否订阅的因素存在哪些,并且影响的重要程度,接下来展示分析过程:

首先导入EXCEL数据,但是在导入过程中,xlsx导入MODELER读取失败,所以需要改变原数据的数据类型,通过另存为的方式将xlsx改变为xls再导入进MODELER即可。如图1.

f454108c7700af2854dc038ed2881e04.png
图1

紧接着添加“表格”为决策树模型构建数据,如图2.

65fdb5656a536bf579582ae33290109e.png
图2

然后因为原数据存在两个因素,“年龄”和“年收入”,因此我们要分类分析两个因素对是否订阅的影响程度,所以建立“类型”。如图3。

ca4056c28dc95989abc0b63c7ec64a37.png
图3

最后添加“c50”模型,选择目标为“是否订阅”,输入为“年收入”和“年龄”,运行模型即可,最后得出结果。如图4,图5,图6.

af0a8c4e7308e144a1c17ecbe891bae7.png
图4

386a3b2bb0a6bdfd21820ffaa8338962.png
图5

04b21e196eb4dd212837b983b2ea5f02.png
图6

由图上数据模型可看出,预测变量重要性当中,“年龄”占比超出0.8,“年收入”不到0.2,因此,可以得出影响订阅者是否订阅的重要因素是“年龄”。

3、结论

由上过程分析得出,在影响订阅者是否订阅的因素中,重要因素是“年龄”,而年收入影响不大,因此可以得出报纸作为一种信息获取方式或者一种消遣方式更得“高龄人”喜欢(47岁为分界),因此我们在接下来的报纸运营中,更注重中年人的消费人群,从而开发更适合年轻人群的信息获取方式。

https://kdocs.cn/l/cuWChplHkzYC [金山文档] 流2.str

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值