数据挖掘简介及模型介绍（二）

Altair澳汰尔

于 2020-02-26 15:59:43 发布

阅读量1.8k

点赞数

文章标签：决策树大数据数据挖掘

本文链接：https://blog.csdn.net/altala/article/details/104518389

版权

7.预测模型

预测模型检验并识别现有数据中的模式，以预测未来的结果。构建预测模型包括应用统计技术来获取和显示公开数据中所包含的信息。

图2.6预测模型
决策树

决策树是最通用的建模技术之一。该模型可以单独用于预测，也可以用作开发其他预测模型建模技术。例如，决策树可用于选择一组合适的变量，并将该组变量以提供给另一种建模技术，供气直接使用。
决策树也可以在建模后解释其工作原理，例如：解释模型是如何做出决定的。决策树非常直观，高度可视化，易于使用和理解，并且通常是非常有效的预测模型。作为分类模型，它们适用于类别型因变量，但也用于预测连续数值型因变量。
决策树的结果可以直接使用到决策过程中，并能够合并商业逻辑制定规则。它们还提供隐式特征权重，使它们适合于初始特征选择，并且输入到其它建模技术中。

图2.7决策树

线性回归

线性回归是一种常见的统计建模技术，在预测和估计中有许多实际用途。预测是与任何预测有关的更通用的术语，估计是展示还未观测出结果的未来事件的过程。线性回归适用于连续变量。因变量必须是连续的，自变量通常也是连续的。但是也可以通过一些手段将类别型自变量编码为虚拟变量。输出函数，即模型是对自变量和因变量线性关系进行拟合的直线。简单的一元线性回归仅包括一个独立变量来预测因变量。多元线性回归利用多个自变量来预测因变量。R^2统计量是评价整体模型性能的重要参考量。它反映了模型和自变量解释因变量的比例。

图2.8：简单一元线性回归
逻辑回归

逻辑回归是一种用于预测类别型因变量的建模技术。通常因变量是二元变量：0或1，坏或好，是或否。举个例子，一个金卡持有者可以被划分为1，非金卡持有者被划分为0。在这种情况下，逻辑回归模型将预测新客户成为金卡持有者的概率。这种逻辑回归被称为二元逻辑回归，因为它的因变量被分为两类。对于超过两类的因变量的问题，例如低/中/高，被定义为利用多元逻辑回归。
逻辑回归衡量了一个类别型因变量和一个或多个自变量之间的关系。自变量可以是连续的，也可以不是。然而，逻辑回归通常在自变量为连续时表现较好。至于类别型变量的处理，逻辑回归与线性回归方式相同。从统计学的视角来看，逻辑回归可以视为线性回归的一个延伸。难点在于我们如何将二元变量转换为一个连续数值型变量。
这里会引入一个叫做几率的概念。比如，p是因变量在一定自变量条件下落入“是”中的概率，那么(1-p)则是在相同环境下落入“不是”的概率。P/(1-p)就叫做在此条件下几率。转换的最后一步是将几率去自然对数。于是就能得到以下的公式，随后就可以重复利用线性回归里面用到的方法。
在这里插入图片描述
二元逻辑回归的一个常见且有用的模型技术。它是构建记分卡模型时至关重要的一步。

记分卡模型

记分卡模型将各自变量转换为相应点数，并将与因变量特征相关的点数相加以产生分数。比如，贷款公司通常使用记分卡来支持信贷决策，评估新的信贷申请，信贷限额的变更，交易的超额审批等。记分卡模型通常是用于建立易于理解，易于管理和易于部署的信用风险模型。记分卡一般有两种类型：申请记分卡或行为记分卡。前者被用于评估服务或产品的申请。后者是账户管理和整合时有用的预测模型。此外记分卡模型可以与基于概率的模型组合。
图2.9显示了简单的双变量记分卡。
比如，租用住房且居住在当前地址少于一年，的申请人记分卡总分为：39+51=90

图2.9基于两个变量的申请记分卡
与此类似，我们可以针对变量值的任何组合计算分数。为了基于总分数发放信用，可以事先设定阈值。分数低于阈值的申请人将被拒绝，相反则接受上述申请。

聚类分析

聚类是创建归纳同类族群的过程。例如，聚类可以分析消费者的购买习惯。聚类是一种无监督的机器学习过程，因为模型中不涉及因变量，所有变量都被视为自变量。聚类分析是一种常见的聚类技术。
在Altair KnowledgeSEEKER 和Altair KnowledgeSTUDIO中，是通过K均值或最大期望法两种算法来完成聚类过程。聚类分析是一种适用于客户细分，产品定位，建立信用行为细分和产品购买细分的模型技术。
图2.10展示了一个客户细分的案例。散点图中的每一点代表一个客户的年龄和收入。结果代表了五种不同的细分。除此之外，一些具有极值特征的数据点可以解释为异常值。

图2.10：客户细分
聚类分析在数据中查找聚类，并用为每个记录标记类别。基于对描述每个集群的理解，分析人员可以为每个集群分配一个名称或含义。例如，左下角较年轻，收入较低的群体可以被指定为学生的标签。再例如较年轻但收入较高的群体可以被视为雅皮士。这些描述集群特征的标签可以被用于定制每个细分市场里面所提供的产品和服务。
客户细分在实践中有两个目标：

将客户群分成更小的群体，以更好的定位这些群体
生成索引；类别号码或标签，用于进一步建模或探索

关联分析（市场购物篮分析）

关联分析是一种与聚类相似的技术。它主要用于发现数据之间的关联并且导出规则。这些规则显示出特定组合一起同时出现的概率。当有兴趣将其它产品和服务作为下一个最佳产品推广时，通常会使用到关联分析。典型的关联分析问题是确定不同产品或者服务同时出现的频繁程度。生成的关联规则可主要用于构建产品促销，产品放置，交叉销售等策略。此外，关联规则还可以应用在包括健康科学，欺诈检测或者需要从事务数据中识别事件或行为模式的许多其它领域。
关联分析模型的工作原理是分析销售内容，即购物篮或一起购买的产品组。关联分析算法利用以下形式提取规则：如果（A和B），那么C
然后，使用规则根据以前的购买情况对客户进行评分，以推荐他们可能购买的产品。例如: 亚马逊的消费者买了红酒同时又买了芝士等。关联分析的另一用途是寻找产品组合，关联分析会产生产品组合。这表明捆绑销售或促销这些产品将受到客户的欢迎。

图2.11产品推荐

8.数据挖掘对商业问题的解决办法

现如今，大量的可供使用的数据为公司提供了更好的机会和挑战，以便更好的洞察客户的行为。通常，数据挖掘模型可能被用来预测未来的事件，客户细分或者更好的了解客户的要求。
以下是常见的商业案例：
（1）预测型分析

下一个产品或服务推荐
如何获得新客户
向上销售和交叉销售
客户防流失和客户忠诚度培养
客户生命周期价值管理
信用风险管理
反欺诈

（2）细分

客户细分
产品细分

（3）文本分析

消费者需求，情感分析

下一个产品推荐：旨在适当的时候向现有客户推广更多的产品。当一家公司有许多产品要推广时，他们必须根据客户拥有的现有产品来确定哪些产品应该提供给该客户。
如何获取客户：被用于获得新客户和增加市场份额，包括提供有很大前景的产品。
向上和交叉销售：旨在为消费者提供更有价值的产品。向上销售是向现有客户推广更昂贵的产品，升级或附加产品的做法。交叉销售是向现有客户销售附加的产品。适合这些模型的数据挖掘技术包括决策树，逻辑回归，市场购物篮分析和神经网络。
客户保留策略和客户流失模型：旨在维护和奖励客户忠诚度。在客户流失的情况下，重点放在一定时间内会取消订单的客户。
有四种类型的流失：

客户流失 — 离开的客户
产品流失 — 取消产品订单
降级 — 降低产品使用水平的客户
产品替换 — 将一种产品替换为另一种的客户

客户生命周期价值管理：代表从客户的生命周期内获得预期收入，考虑到该客户可能购买的所有产品。客户生命周期价值也可以表示此类预期收入的指数。
客户细分：可以更好的了解客户特征，以及相应的市场格局。其中包括他们是否能自然的分组成为具有相似度的市场。用于客户细分的常见数据挖掘技术是聚类分析。模型输出的一组聚类，可以附加在其它模型中，例如决策树，线性回归，逻辑回归和神经网络等。
产品细分：根据现有用户产品使用情况来推荐产品，在大多数情况下使用市场购物篮分析。
文本分析: 基于文本的数据源，分析客户需求。并将非结构化数据转换为结构化字段，其中包含客户正在谈论的实体，主题，话题以及相关评价情感的正负得分。