最近开始学Clementine,将整个流程记录一下方便日后回顾,这一篇主要是简介和思想方面的,具体操作会在之外的博客里
Clementine简介
Clementine是ISL(Integral Solutions Limited)公司开发的数据挖掘工具平台,其结合商业技术可以快速建立预测性模型。进而应用到商业活动中,帮助人们改进决策过程。Clementine 提供最出色、最广泛的数据挖掘技术,确保看用最恰当的分析技术来处理相应的问题,从而得到最优的结果以应对随时出现的商业问题。即便改进业务的机会被庞杂的数据表格所掩盖,Clementine 也能最大限度地执行标准的数据挖掘流程,找到解决商业问题的最佳答案。目前,50%以上的数据挖掘工具采用的都是CRISP-DM的数据挖掘流程,已经成为事实上的行业标准。而Clementine 支持CRISP-DM标准,不仅能够规避许多常规错误,而且其显著的智能预测模型有助于快速解决出现的问题。
一、Clementine 应用模板
(1)CRMCAT–针对客户的获取和增长,提高反馈率并减少客户流失;
(2)WebCAT–点击顺序分析和访问行为分析;
(3)cTelcoCAT–客户保持和增加交叉销售;
(4)CrimeCAT–犯罪分析及其特征描述,确定事故高发区,联合研究相关犯罪行为;
(5)FraudCAT–发现金融交易和索赔中的欺诈和异常行为;
(6)MicroarrayCAT–研究和疾病相关的基因序列并找到治愈手段。
**二、 利用 Clementine,可以在如下几方面提供解决方案: **
(1)公共部门。各国政府都使用数据挖掘来探索大规模数据存储,改善群众关系,侦测欺诈行为(譬如洗黑钱和逃税),检测犯罪行为和恐怖分子行为模式以及进一步扩展电子政务领域。
(2)CRM。客户关系管理可以通过对客户类型的智能分类和客户流失的准 确预测而得到提高。Clementine 已成功帮助许多行业的企业吸引并始终保有最有价值的客户。
(3)Web 挖掘。Clementine 包含的相关工具具有强大的顺序确定和预测算法,对于准确发现网站浏览者的行为以及提供精确满足浏览者需求的产品或信息而言,这些工具是不可或缺的。从数据准备到构建模型,全部的数据挖掘过程均 可在 Clementine 内部操控。
(4)药物发现和生物信息学。通过对由试验室自动操作获得的大量数据进行分析,数据挖掘有助于药物和基因组的研究。聚类和分类模型帮助从化合物库中找出线索,与此同时顺序检测则有助于模式的发现。
三、基本思想
数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,它是一种深层次的数据分析方法。。随着科技的发展,数据挖 掘不再只依赖在线分析等传统的分析方法。它结合了人工智能(AI)和统计分析的长处,利用人工智能技术和统计的应用程序,并把这些高深复杂的技术封装起来,使人们不用自己