3、数据挖掘可以做什么?
数据挖掘的用处有很多,在这里我只想从技术和应用两个层面来简单谈谈。
从技术层面来说,按照数据挖掘产出的知识可以粗分为两大类:描述型挖掘和预测型挖掘。描述型挖掘是对现有数据的进一步精炼和归纳,从中抽取中更宏观的反映数据特征的概念描述。举个例子来说,某家银行有几百万客户,数据仓库中存储了每个客户的人口统计信息、账户信息、交易信息、客服联络信息等详细数据。但是银行不可能清楚地了解每位客户是什么样的客户,客户的消费模式到底是怎样的?这时一般需要把全体客户进行细分,划分为几个客户群,而且这种划分可以保证具有相似行为、相似价值的客户会被放入同一个群组中。有了这些客户群,银行就能更容易地发现营销机会并制定营销战略。这个例子中所用的挖掘技术是聚类模型,它就是一种典型的描述型挖掘。
预测型挖掘,顾名思义,就是建立的挖掘模型具备预测能力。这种预测能力可能包括预测哪些客户下个月会流失,哪些客户对促销活动会积极响应,哪些客户的未来价值会成长以及成长多少等等。预测型挖掘常常对企业运营具有更强的指导作用,从而更快地见效。
从应用层面来说,数据挖掘可以应用到很多行业中,包括电信、银行、证券、保险、制造、因特网等等。抛开具体行业的特定应用不谈,在各个行业中一般都会把数据挖掘应用在客户关系管理(CRM)之中。在CRM中的数据挖掘应用,包括客户细分、客户价值分析、客户获取、客户保持、交叉销售和提升销售等等。此外,信用评分、欺诈侦测和文本挖掘等也是常见的应用。
客户细分已经在描述型挖掘的例子中予以阐述,不再赘言。
准确地评价客户价值是企业成功运营的关键。这里的客户价值不仅仅包括客户当前给企业带来的收入,还包括消耗在客户身上的各种成本,以及客户未来会给企业带来多少价值。把客户的当前价值和未来价值合起来就构成了对客户整个生命周期(从成为企业的客户到最终流失)价值的综合评价,即LTV(LifeTime Value)。当我们明确了解客户价值之后,就可以有针对性地区分对待,尽量留住高价值客户,推动中低价值的客户向高价值发展,并为不同价值的客户提供不同等级的服务。
[img][点击在新窗口查看原始图片][/img]
图: 客户生命周期各阶段的数据挖掘应用
上图中给出了客户生命周期各个阶段中可以用到的数据挖掘,横轴为时间轴,纵轴则为客户在不同时间点给企业带来的利润。整个生命周期可以分为四阶段:起始期(从潜在客户变成新客户)、发展期(逐步扩大使用产品的范围和数量)、成熟期(对企业的利润贡献达到顶峰)、终止期(逐渐远去流失)。
在客户生命周期的不同阶段,数据挖掘可以帮我们做什么呢?在起始期,由于潜在客户尚未与企业有多少接触,对各种品牌和产品缺乏了解和认知,他还在观望,看看有没有适合自己的产品。此时潜在客户基本上还谈不上对企业有多高的忠诚度,我们可以运用数据挖掘技术来协助锁定目标潜在客户群,通过对现有客户和营销活动的分析,发现哪些人最有可能变成我们的客户,通过什么促销手段和渠道来更有效地打动他,并评价如果把他发展为客户之后会给企业带来多少收益。这种数据挖掘应用称为“客户获取”。
在发展期,客户对企业的产品和服务使用频率相对偏低,用量也不大,这时可以运用数据挖掘技术来激活睡眠客户,刺激用户购买更多不同的产品(交叉销售),或者扩大现有产品的购买量(提升销售)。数据挖掘技术中的关联分析可以帮助企业发现哪些产品之间的关联程度最高,预测技术可以帮助我们了解客户对特定营销活动是否会积极响应,聚类技术则可以帮助我们找到具有相似行为和偏好的客户群体,从而进一步推动客户向高价值客户发展。
在成熟期,客户对企业的利润贡献已经最大化。但这时企业不能躺在功劳簿上睡大觉,而应该居安思危,谨防优质客户的衰退和流失,及时对激烈的市场竞争作出反应。此时可以运用数据挖掘中的预测技术来及早发现哪些客户已经出现了异动,可能会流失,并采取有针对性的挽留行动。
实际上,在整个客户生命周期,我们都要不断对客户的行为和价值进行分析,随时掌握他们的偏好和异动,这样才能加强企业对客户的洞察力,对运营进行有力的指导和促进。而这些分析都是数据挖掘可以帮助我们做到的。
4、数据挖掘流程及主流工具
限于篇幅,本文并不想对数据挖掘的技术多加阐述,读者可以阅读一些经典教材来获得相应的知识,比如《数据挖掘:概念与技术》、《数据挖掘原理》、《机器学习》等。一般来说,常用的数据挖掘技术包括:用于客户细分的聚类算法,用于交叉销售的关联分析和序列分析算法,用于客户价值分析、流失分析、交叉销售的决策树、神经网络和回归等预测算法,用于互联网的文本挖掘和Web分析等等。
Eric King在“如何在数据挖掘上投资:避免预测型分析中昂贵的项目陷阱的框架”一文(发表于2005年10月的“DM Review”)中主张数据挖掘是一段旅程,而非终点。他把这段旅程定义为数据挖掘过程。该过程包含如下要素:
l 一个发现过程
l 具有灵活的框架
l 按照清晰定义的策略进行
l 包含多个检查点
l 多次定期的评估
l 允许在反馈环路中对函数进行调整
l 组织为叠代式的架构
很多数据挖掘工具的厂商都对这个过程进行了简化,使之更加清晰。SAS将数据挖掘过程划分为五个阶段: 抽样(Sample),探索(Explore),处理(Manipulate),建模(Model),评估(Assess)。过去人们常用循环式的饮水器来比喻数据挖掘过程。水(数据)首先涌上第一层(分析阶段),形成漩涡(精炼和反馈),等到聚积了足够多“已经处理过”的水之后,就溢出来流到下一个更低的层中。不断地进行这种“处理”,直到水流到最低层。在那里它被抽回顶层,开始新一轮的“处理”。数据挖掘和这种层次式的叠代过程非常相像。甚至在很多数据挖掘算法的内部处理也是如此,比如神经网络算法,就是在数据集上多次运行(epochs),直至发现最优解。
但使用饮水器来比喻数据挖掘过程还不算恰当,因为它没有反映出反馈环路,而反馈环路在数据挖掘过程中是很常见的。例如,通过数据评估可以发现异常的数据,从而要求从源系统中抽取更多的数据。或者,在建模之后,会发现需要更多的记录才能反映总体的分布。
“工欲善其事,必先利其器”。当企业打算运用数据挖掘来改善企业运营时,选择合适的数据挖掘工具就变得很重要了。工具的选择通常会从以下角度来考虑(同时还需结合企业的信息化水平、具体的业务目标、要处理的数据量、对业务流程的改变等因素):
l 数据存取能力:能否访问各种类型的数据,数据接口的效率如何
l 数据准备能力:数据处理能力,包括抽样、过滤、变换、整合、探索等等
l 模型算法的广度和深度:是否支持各种挖掘算法,多模型的比较及部署
l 可视化能力:多种图形展示,交互操作
l 性能:软硬件平台支持,并行,多CPU,多线程,分布式架构
l 对各种用户和行业解决方案的支持能力
l 其它能力支持:中文支持,友好界面,批处理,API,元数据管理等
企业也可以参考第三方评估机构的评测结果,来选择数据挖掘工具,比较权威的评估机构包括Gartner、IDC等等。以下引用Gartner在2007年第2季度发布的“客户数据挖掘魔力象限”评估报告的部分内容,向大家简单介绍主流的数据挖掘产品。
“最近,著名软件评测商Gartner对数据挖掘领域软件进行了评测,最终的结果是,SAS和SPSS以及领域中的传统地位仍然位于数据挖掘的领导者象限。异军突起的是KXEN和Portrait Software,作为远见卓识家而出现。挑战者是一片空白,其它的十余个厂商占据着利基市场。”
“在此项评测中,共有SAS、SPSS、KXEN、Portrait Software、Angoss Software、Unica、ThinkAnalytics、Fair Isaac、Infor CRM Epiphany等九家公司入选,这代表着当今的市场情况,在中国市场,主要的数据挖掘工具是SAS、KXEN和SPSS。”
在2006年第1季度的评估报告中,还曾包含Chordiant和Teradata等厂商。
评测的结果参见下图。评估标准主要划分为两个角度:执行力(纵轴)和视角完整性(横轴)。其中执行力的评估包括七个评估标准,分别是产品/服务、市场反应和跟踪记录、总体生存能力、客户体验、市场执行、销售执行/定价和运营能力。视角完整性的评估包括八个评估标准,分别是产品策略、市场理解力、市场策略、销售策略、垂直/行业策略、商业模型、创新能力和地理战略。
[点击在新窗口查看原始图片]
图: Gartner客户数据挖掘魔力象限(2007年第2季度)
在上图中,把主流的数据挖掘厂商划分为四个象限,分别是领导者(Leaders)、挑战者(Challengers)、远见卓识家(visionaries)和利基市场(niche players)。以下对数据挖掘领域内的两大领导厂商SAS和SPSS分别简要介绍。
SAS
l 在数据挖掘市场,SAS是最大的厂商,它有众多的分析师,最多的客户经验,是数据挖掘的传统标准工具,外包和服务提供商都非常熟悉SAS的产品。
l SAS有最完整的数据准备和分析工具,很少有SAS不能解决的问题。寻求“一站式商店”平台的企业应该考虑SAS。
l SAS拥有广泛的数据挖掘成功案例,从而让客户对SAS充满信心。
SPSS
l SPSS在分析各种类型的数据有最广泛的视角(行为、人口统计学、调查、非结构化数据等)。试图充分利用多种数据类型(尤其网页,流量,文本,调查)的企业应该考虑SPSS。
l SPSS对于模型管理环境有最好的视角,这可以更好的管理几个数据挖掘工具的结果。
数据挖掘的用处有很多,在这里我只想从技术和应用两个层面来简单谈谈。
从技术层面来说,按照数据挖掘产出的知识可以粗分为两大类:描述型挖掘和预测型挖掘。描述型挖掘是对现有数据的进一步精炼和归纳,从中抽取中更宏观的反映数据特征的概念描述。举个例子来说,某家银行有几百万客户,数据仓库中存储了每个客户的人口统计信息、账户信息、交易信息、客服联络信息等详细数据。但是银行不可能清楚地了解每位客户是什么样的客户,客户的消费模式到底是怎样的?这时一般需要把全体客户进行细分,划分为几个客户群,而且这种划分可以保证具有相似行为、相似价值的客户会被放入同一个群组中。有了这些客户群,银行就能更容易地发现营销机会并制定营销战略。这个例子中所用的挖掘技术是聚类模型,它就是一种典型的描述型挖掘。
预测型挖掘,顾名思义,就是建立的挖掘模型具备预测能力。这种预测能力可能包括预测哪些客户下个月会流失,哪些客户对促销活动会积极响应,哪些客户的未来价值会成长以及成长多少等等。预测型挖掘常常对企业运营具有更强的指导作用,从而更快地见效。
从应用层面来说,数据挖掘可以应用到很多行业中,包括电信、银行、证券、保险、制造、因特网等等。抛开具体行业的特定应用不谈,在各个行业中一般都会把数据挖掘应用在客户关系管理(CRM)之中。在CRM中的数据挖掘应用,包括客户细分、客户价值分析、客户获取、客户保持、交叉销售和提升销售等等。此外,信用评分、欺诈侦测和文本挖掘等也是常见的应用。
客户细分已经在描述型挖掘的例子中予以阐述,不再赘言。
准确地评价客户价值是企业成功运营的关键。这里的客户价值不仅仅包括客户当前给企业带来的收入,还包括消耗在客户身上的各种成本,以及客户未来会给企业带来多少价值。把客户的当前价值和未来价值合起来就构成了对客户整个生命周期(从成为企业的客户到最终流失)价值的综合评价,即LTV(LifeTime Value)。当我们明确了解客户价值之后,就可以有针对性地区分对待,尽量留住高价值客户,推动中低价值的客户向高价值发展,并为不同价值的客户提供不同等级的服务。
[img][点击在新窗口查看原始图片][/img]
图: 客户生命周期各阶段的数据挖掘应用
上图中给出了客户生命周期各个阶段中可以用到的数据挖掘,横轴为时间轴,纵轴则为客户在不同时间点给企业带来的利润。整个生命周期可以分为四阶段:起始期(从潜在客户变成新客户)、发展期(逐步扩大使用产品的范围和数量)、成熟期(对企业的利润贡献达到顶峰)、终止期(逐渐远去流失)。
在客户生命周期的不同阶段,数据挖掘可以帮我们做什么呢?在起始期,由于潜在客户尚未与企业有多少接触,对各种品牌和产品缺乏了解和认知,他还在观望,看看有没有适合自己的产品。此时潜在客户基本上还谈不上对企业有多高的忠诚度,我们可以运用数据挖掘技术来协助锁定目标潜在客户群,通过对现有客户和营销活动的分析,发现哪些人最有可能变成我们的客户,通过什么促销手段和渠道来更有效地打动他,并评价如果把他发展为客户之后会给企业带来多少收益。这种数据挖掘应用称为“客户获取”。
在发展期,客户对企业的产品和服务使用频率相对偏低,用量也不大,这时可以运用数据挖掘技术来激活睡眠客户,刺激用户购买更多不同的产品(交叉销售),或者扩大现有产品的购买量(提升销售)。数据挖掘技术中的关联分析可以帮助企业发现哪些产品之间的关联程度最高,预测技术可以帮助我们了解客户对特定营销活动是否会积极响应,聚类技术则可以帮助我们找到具有相似行为和偏好的客户群体,从而进一步推动客户向高价值客户发展。
在成熟期,客户对企业的利润贡献已经最大化。但这时企业不能躺在功劳簿上睡大觉,而应该居安思危,谨防优质客户的衰退和流失,及时对激烈的市场竞争作出反应。此时可以运用数据挖掘中的预测技术来及早发现哪些客户已经出现了异动,可能会流失,并采取有针对性的挽留行动。
实际上,在整个客户生命周期,我们都要不断对客户的行为和价值进行分析,随时掌握他们的偏好和异动,这样才能加强企业对客户的洞察力,对运营进行有力的指导和促进。而这些分析都是数据挖掘可以帮助我们做到的。
4、数据挖掘流程及主流工具
限于篇幅,本文并不想对数据挖掘的技术多加阐述,读者可以阅读一些经典教材来获得相应的知识,比如《数据挖掘:概念与技术》、《数据挖掘原理》、《机器学习》等。一般来说,常用的数据挖掘技术包括:用于客户细分的聚类算法,用于交叉销售的关联分析和序列分析算法,用于客户价值分析、流失分析、交叉销售的决策树、神经网络和回归等预测算法,用于互联网的文本挖掘和Web分析等等。
Eric King在“如何在数据挖掘上投资:避免预测型分析中昂贵的项目陷阱的框架”一文(发表于2005年10月的“DM Review”)中主张数据挖掘是一段旅程,而非终点。他把这段旅程定义为数据挖掘过程。该过程包含如下要素:
l 一个发现过程
l 具有灵活的框架
l 按照清晰定义的策略进行
l 包含多个检查点
l 多次定期的评估
l 允许在反馈环路中对函数进行调整
l 组织为叠代式的架构
很多数据挖掘工具的厂商都对这个过程进行了简化,使之更加清晰。SAS将数据挖掘过程划分为五个阶段: 抽样(Sample),探索(Explore),处理(Manipulate),建模(Model),评估(Assess)。过去人们常用循环式的饮水器来比喻数据挖掘过程。水(数据)首先涌上第一层(分析阶段),形成漩涡(精炼和反馈),等到聚积了足够多“已经处理过”的水之后,就溢出来流到下一个更低的层中。不断地进行这种“处理”,直到水流到最低层。在那里它被抽回顶层,开始新一轮的“处理”。数据挖掘和这种层次式的叠代过程非常相像。甚至在很多数据挖掘算法的内部处理也是如此,比如神经网络算法,就是在数据集上多次运行(epochs),直至发现最优解。
但使用饮水器来比喻数据挖掘过程还不算恰当,因为它没有反映出反馈环路,而反馈环路在数据挖掘过程中是很常见的。例如,通过数据评估可以发现异常的数据,从而要求从源系统中抽取更多的数据。或者,在建模之后,会发现需要更多的记录才能反映总体的分布。
“工欲善其事,必先利其器”。当企业打算运用数据挖掘来改善企业运营时,选择合适的数据挖掘工具就变得很重要了。工具的选择通常会从以下角度来考虑(同时还需结合企业的信息化水平、具体的业务目标、要处理的数据量、对业务流程的改变等因素):
l 数据存取能力:能否访问各种类型的数据,数据接口的效率如何
l 数据准备能力:数据处理能力,包括抽样、过滤、变换、整合、探索等等
l 模型算法的广度和深度:是否支持各种挖掘算法,多模型的比较及部署
l 可视化能力:多种图形展示,交互操作
l 性能:软硬件平台支持,并行,多CPU,多线程,分布式架构
l 对各种用户和行业解决方案的支持能力
l 其它能力支持:中文支持,友好界面,批处理,API,元数据管理等
企业也可以参考第三方评估机构的评测结果,来选择数据挖掘工具,比较权威的评估机构包括Gartner、IDC等等。以下引用Gartner在2007年第2季度发布的“客户数据挖掘魔力象限”评估报告的部分内容,向大家简单介绍主流的数据挖掘产品。
“最近,著名软件评测商Gartner对数据挖掘领域软件进行了评测,最终的结果是,SAS和SPSS以及领域中的传统地位仍然位于数据挖掘的领导者象限。异军突起的是KXEN和Portrait Software,作为远见卓识家而出现。挑战者是一片空白,其它的十余个厂商占据着利基市场。”
“在此项评测中,共有SAS、SPSS、KXEN、Portrait Software、Angoss Software、Unica、ThinkAnalytics、Fair Isaac、Infor CRM Epiphany等九家公司入选,这代表着当今的市场情况,在中国市场,主要的数据挖掘工具是SAS、KXEN和SPSS。”
在2006年第1季度的评估报告中,还曾包含Chordiant和Teradata等厂商。
评测的结果参见下图。评估标准主要划分为两个角度:执行力(纵轴)和视角完整性(横轴)。其中执行力的评估包括七个评估标准,分别是产品/服务、市场反应和跟踪记录、总体生存能力、客户体验、市场执行、销售执行/定价和运营能力。视角完整性的评估包括八个评估标准,分别是产品策略、市场理解力、市场策略、销售策略、垂直/行业策略、商业模型、创新能力和地理战略。
[点击在新窗口查看原始图片]
图: Gartner客户数据挖掘魔力象限(2007年第2季度)
在上图中,把主流的数据挖掘厂商划分为四个象限,分别是领导者(Leaders)、挑战者(Challengers)、远见卓识家(visionaries)和利基市场(niche players)。以下对数据挖掘领域内的两大领导厂商SAS和SPSS分别简要介绍。
SAS
l 在数据挖掘市场,SAS是最大的厂商,它有众多的分析师,最多的客户经验,是数据挖掘的传统标准工具,外包和服务提供商都非常熟悉SAS的产品。
l SAS有最完整的数据准备和分析工具,很少有SAS不能解决的问题。寻求“一站式商店”平台的企业应该考虑SAS。
l SAS拥有广泛的数据挖掘成功案例,从而让客户对SAS充满信心。
SPSS
l SPSS在分析各种类型的数据有最广泛的视角(行为、人口统计学、调查、非结构化数据等)。试图充分利用多种数据类型(尤其网页,流量,文本,调查)的企业应该考虑SPSS。
l SPSS对于模型管理环境有最好的视角,这可以更好的管理几个数据挖掘工具的结果。