科研实习生 数据挖掘在陶瓷行业客户关系管理中的应用

 

1.数据挖掘的概念

各种研究机构由于观点和背景的不同,对数据挖掘都有不同的定义。可以从技术角度进行定义,也可以从商业角度进行定义。

1).技术上的定义

数据挖掘(DataMninig)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

2).商业角度的定义

数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。

简而言之,数据挖掘其实是一类深层次的数据分析方法。数据分析本身己经有很多年的历史,只不过在过去数据收集和分析的目的是用于科学研究,另外,由于当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到很大限制。现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是由于纯机会的(opportunistic)商业运作而产生。分析这些数据也不再是单纯为了研究的需要,更主要是为商业决策提供真正有价值的信息,进而获得利润。但所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也因此而得名。

因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。

2.数据挖掘的几种常用算法

   由于数据挖掘所涉及的学科领域和方法很多,因此对数据挖掘的采用的技术也有很多种,下面对数据挖掘常采用的技术做一简单介绍:

1)        关联规则算法

这里介绍的关联规则算法是apriori算法。APriori算法在第一次迭代时,由I直接构成候选1一项目集的集合C,,若 I={i1,i2,i3…..im},C1={ {i1},{i2},{i3},…..,{im}},然后根据最小支持率确定频繁1一项目集的集合L1APriori算法在第k次迭代中,先根据上一次迭代过程中找到的频繁项目集的集合Lk-1,产生本次迭代的候选项目集的集合ck;然后为Ck中的每个项目集分配一个初始为零的计数器ocunt,保存其最小支持度。依次扫描数据集D中的事务,确定包含在每条事务中且属于ck的项目集,增加这些项目集的计数器值,在所有事务都扫描完之后即可得到ck中各项目集的支持数,根据|D|剑和最小支持率计算各项目集的支持率就可确定ck中频繁项目集。重复上述过程直到没有新的项目产生为止。

2)        决策树

       决策树算法是目前应用最广泛的归纳推理算法之一,是一种逼近离散值函数的方法,也可将它看作是一个布尔函数。它是以实例为基础的归纳学习算法,通过对一组训练数据的学习,构造出决策树形式的只是表示,在决策树的内节点进行属性值的比较并根据不同的属性值判断从该节点向下的分枝,从而在决策树叶节点得到结论。所以从根到叶节点的一条路径就对应着一条规则,整棵决策树就对应着一组吸取表达式规则。在决策树分类算法中,最有影响力的是Q uinlan 提出的ID 3 算法。ID 3 分类算法描述ID 3 算法的概述如下:

       算法:Generate_decision_tree 由给定的训练数据产生一颗判定树。

输入:训练样本T,由离散值属性表示;候选属性的集合

attribut_list

输出:一颗判定树(决策树)

3)        聚类算法:根据“物以类聚,人以群分”的朴素思想,从中发现的一定的规律和典型的模式。聚类分析主要研究基于几何距离的聚类,在使用上,首先要定义多维空间和距离,以距离作为相似性的判别标准。分类不同的是,聚类操作中要划分的类是事先未知的,类的形成完全是数据驱动的,属于一种无指导的学习方法。聚类分析的方法较多,例如系统聚类法、基于划分法、基于模型法,动态聚类法、模糊聚类法等.采用不同的聚类方法,对于相同的记录集合可能有不同的聚类结果。

4)        神经网络算法

     神经网络:根据一种叫做“似脑机器”的思想,提出的一种基于生物神经元特性的互连模型,通常,神经网络由输入、中间层和输出三个层次构成。每一个神经元在接受了各种输入后,再计算总输入值,由过滤机制比较总输入,然后确定它的输出值。神经网络有以下几个特点:l)具有自学习功能,对于预测等具有特别重要的意义。预期未来的人工神经网络计算机将为人类提供经济预测、市场预测、效益预测,其前途是很远大的。2)具有联想存储功能,人工神经网络的反馈网络可以实现这种联想功能。3)具有高速寻找优化解的能力。寻找一个复杂问题的优化解,往往需要很大的计算量,利用一个针对某问题而设计的反馈型人工神经网络,发挥计算机的高速运算能力,可能很快找到优化解。从神经网络思想的提出到现在大约己经有30多种模型被开发和应用,表2l是神经网络模型的比较。

由于人工神经网络模型较多,因此在进行数据挖掘时,必须根据数据挖掘的目的,选择合适的神经网络模型和算法,才能获得较好的数据挖掘效果。

5)        遗传算法

    遗传算法是在20世纪60年代末由J.H.Holland提出并建立的,是根据生物进化思想而启发得出的一种全局优化算法,在本质上是一种求解问题的并行全局搜索方法,不依赖具体的问题,它能够在搜索过程中自动获取和积累有关搜索空间的知识,并自适应地控制搜索过程以求得最优解。在求解不确定性、非线性问题、复杂系统工程领域的有效的优化方法,近年来在国内外得到了广泛的应用。GA是模拟自然中的进化过程或演变过程的算法模型,它比传统搜索方法具有更强的鲁棒性,全局搜索能力较强而局部搜索能力弱,但是传统的遗传算法往往存在两个严重的缺点:一个是要达到真正的最优解需要花费很长的时间;另一个是易发生“早熟”现象。

6)        归纳规则

   关联规则是指大量数据中项集之间有趣的关联或相关联系。关联规则发现最初的形式是零售商的货篮分析,即通过发现顾客放入其货篮中的不同商品,来分析顾客的购买习惯,进而得到商品之间的关联,从而帮助零售商制订营销策略。在关联规则中,一般用支持度、可信度、期望可信度和作用度来描述关联规则的属性, Apriori算法是最基本的关联规则发现算法。

三.陶瓷行业客户关系管理系统中数据挖掘模型的建立

1.改进的决策树在陶瓷企业客户获取中的应用

客户的获取即是使潜在的客户转换为企业的正式客户。传统的获取客户的方法如开展大规模的联合广告活动,或根据所了解的目标客户群的情况进行直销活动等。尽管有丰富经验的市场人员可以选择出相关的人口调查属性的筛选条件,但是当数据量增大时,这也会变得相当困难。当客户数量不断增长和每位客户的细节因素增多时,要得出这样的行为模式的复杂度也同样增大。随着客户数据库的规模迅速膨胀,用手工对潜在客户群的市场细分几乎是不可能的。应用数据挖掘技术可以帮助企业完成对潜在客户的筛选工作,并与CRM系统中的销售自动化结合,把由数据挖掘技术得出的客户名单与这些客户可能感兴趣的优惠措施系统地结合起来,获得更高的投资回报率。

陶瓷企业的发展和壮大需要不断获得新客户维持老客户数据挖掘技术可以用来揭示客户的行为习惯和预测发现一些在不同情况下有相似行为的新客户帮助建陶企业识别出这些潜在的客户群 并提高市场活动的响应率使客户关系管理做到心中有数有的放矢数据挖掘技术还可以帮助市场营销人员完成对潜在客户的发现和筛选工作# 把潜在的客户名单和这些客户感兴趣的营销促销措施系统地结合起来#为每一个客户提供个性化一站式的服务以不断地获取新客户

决策树算法的基本原理是使用信息论方法对大量实例的特征进行信息量分析,计算各特征的互信息,找出反应类别的重要特征,该算法是一种非常有效的算法。决策树算法主要优点有:可以生成可以理解的规则;计算量相对来说不是很大,可以处理连续和分散的字段;可以清晰地显示哪些字段比较重要。基于决策树算法如上优点,该文采用基于该算法的改进算法构建获取客户的预测模型。获取客户模型具体流程如图所示。

1.1 C 4.5决策树算法原理

该算法在训练数据集的基础上构造决策树。每个实例对应属性集和类集的一组具体的值。每个属性有很多连续或者离散值。并且用unknow这个特殊的值代表缺失值。预测类只允许是离散的,用C1,C2...Cnclass代表类。决策树是一种由树枝节点和叶子构成的树状数据结构。每个叶子表示一个预测类,一个节点表示基于一个属性的分裂。实例用决策树进行分类,根据其属性值将实例归入某个类,即根据实例的属性值在决策树上形成一个从根结点到叶子节点的路径。该叶子节点表示的类就是实例被决策树预测的类。’&$#算法通过分裂和控制策略来构造决策树。在C4.5算法中,树中的每个节点对应着一组实例。并且,实例被赋予一定的权值weight,从而将缺失属性值考虑在内。在根结点所有实例的权重赋为1。其算法执行过程如程序如下:

C4.5构造树算法form tree伪代码:

1.2 决策树算法采用的度量标准

决策树算法采用信息增益率进行属性的选取和节点的分裂。如果a是离散属性,对于该属性有h个不同的已知属性值,则相应的将T分成1 T2 ...Th ,这h个子集,每个子集中的属性a的属性值分别为a 1 a 2 ...ah ,则信息增益为:

 

2.数据挖掘在陶瓷企业交叉销售中的应用

现在企业和客户之间的关系是经常变动的,一旦一个人或者一个公司成为客户,就要尽力使这种客户关系趋于完美。一般来说可以通过这三种方法:

1.最长时间的保持这种关系

2.最多次数的和你的客户交易

3.最大数量的保证每次交易的利润

公司和其客户之间的商业关系是一种持续不断的发展的关系,其间伴随着双方商业合作范围的扩展与收缩。如何更好的加强这种双向的合作,在可能的条件下与客户开展尽可能多的商业合作从而实现更大的商业利润是交叉营销所要达到的目的。向现有客户提供新的产品和服务的营销过程谓之为交叉营销。企业需要对现有客户进行交叉营销(Cross-seliing)。交叉营销就是指向现有的客户提供新的产品和服务的营销过程。它的目标就是达到双赢的结果,即客户和商家都可以从中获益。客户获益是得到更好更贴切的服务质量,商家则是因为增加了销售量而获利。使用数据挖掘技术进行交叉营销的分析是从分析现有客户的购买行为数据开始,首先得到关于现有客户消费习惯的数据。在寻找交叉营销机会前决定希望提供给客户哪些种类的产品和服务。然后收集数据,包括客户的个人信息(如年龄、收入、婚姻状况、住址等)和交易记录(如最近的收支情况、消费次数、消费类别等),另外还包括与分析相关的一些外部数据。

准备好所需的数据后,接着选择数据挖掘的算法进行建模,对每一种交叉营销的情况都建立一个模型,且对每种交叉营销的情况进行分析的过程都是独立的厂用来分析新的客户数据以预测出这些客户将来的行为。

经过对客户进行各种交叉营销模型的分析,得出客户在各种交叉营销方案中的评分,即可能接受这些交叉营销的程度。根据最终得到的评分矩阵(行表示客户,列表示客户在各种交叉营销方案下依模型计算的得分),确定给予特定的客户哪种交叉销售产品或服务,从而提高客户的价值。

交叉营销是建立在双赢的基础之上的,客户因得到更好更多的符合其需求的服务而获益在实际的商业操作中可以有很多方法来优化这种关系。例如一个建筑陶瓷生产商A和一个装潢公司B建立了合作关系。那么就增加了向对方现有客户提供自己的产品和服务的机会。而他们的利润都有增加,即因为A的经济保证使得B有更多的潜在客户和己有客户更有条件享受B的服务,而A也在此过程中实现了更多的盈利。使用数据挖掘技术的关联规则模式可以帮助企业找出客户最适合的服务种类,来进行针对性的营销活动。

关联规则算法在建筑陶瓷行业中的交叉销售应用,主要采用了Apriori 算法

算法描述如下:

输入:事物数据库D;最小支持度闻值mnisPuport

输出:D中的频繁项集L

Apriori算法第一步是找出所有频繁1-项目集;210步由APriori_gen函数根据Lk-1,产生Ck,然后扫描数据集中的每条事务计算Lk;AProiri_gen函数和哈希数据结构的使用是使APriori算法具有较高的挖掘效率的关键技术。

3.数据挖掘在陶瓷企业客户细分中的应用

近几年,国内一对一营销(oneToone)正在被越来越多的企业和媒体宣传。一对一营销是指了解客户,并和客户建立起长期的、持续的关系。这个看似很新的概念却通常采用一些传统的过程和方法来完成,如焦点小组、电话调查等,甚至有一些公司理解的一对一营销就是每逢客户生日或纪念日给他寄一张卡片。这些方法基本上是着眼于人口统计学的数据。但如果一个大型企业,拥有的客户数量很大,由于各种限制,与每一个客户分别进行交流不现实,一个可行的方法就是客户细分。针对不同的分析需求,可以对客户按照自然属性(年龄、职业、区域、职称、文化程度等)和行为属性(呼叫行为、消费行为等)进行群体划分,以便市场经营与决策人员针对不同的用户群采用不同的市场策略。客户细分的主要目标是:发现不同客户群体的特征。分析在某一目标下,按贡献度划分的客户群体分布。

客户细分的原理是将客户的属性采用分类分析技术分为若干类,对具有某一类行为特征的用户,分析其基本信息,找出客户属性与客户基本特征之间的潜在关系。分类将一组客户按照相似性划归成若干类别,使得属于同一类别的客户之间的距离尽可能小,而不同类别客户之间的距离尽可能大。对客户进行分类后,统计分析各个类别的行为特性,按照各个行为类别贡献度的大小对各个类别进行排序。客户细分特性按不同的目标有不同的客户群体分布,如消费行为在贡献度不同的客户群体中的分布百分比,呼叫行为的分布情况等等。

CRM系统中,可以通过数据挖掘技术来进行客户细分,把大量的客户分成不同的类,每个类里的客户有相似的属性,而不同的类里的属性则不同。企业只需对属于同一类中的客户采取相同的个性化服务,即可大大降低企业的成本。

在客户细分中,经过神经网络算法,聚类,决策树等算法的比较后选择聚类算法来处理在建陶行业中的客户细分比较恰当。

具体算法如下:

假定样本数据点i=12345,聚类结果找到k个聚类{C1,C2,C3,……,Ck}

For  i=1,……,k ri为从D中随机选取的一个点,作为聚类初始中心点;

While (在聚类q中有变化发生,聚类中心位置改变)do

    形成聚类:

      For  i=1,……,k  do

        

其中d(ri,x)为点x到聚类Ci中心点气的距离,d(rjx)为点x到聚类Cj中心点rj的距离;

End;

计算新的聚类中心点:

For  i=1,……,k  do

新的聚类中心为聚类Ci内点的均值向量ÿ

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值