clementine软件里面dome的演示实验的分析和说明

该博客介绍了如何利用Clementine软件进行数据挖掘,通过异常检测预筛选并用神经网络深入分析异常记录,特别是针对农业补贴申请的异常情况。案例涵盖了从预处理到模型构建的步骤,包括电信客户流失分析、时间序列预测、贷款违约预测等场景。
摘要由CSDN通过智能技术生成
说明:软件里面的帮助---》应用程序实例,按照这里面的顺序来的。

毛华望 QQ849886241。技术博客http://blog.csdn.net/my_share 
1, 准备分析数据(数据审核)

按照应用程序实例文本的指示,打开 telco_dataaudit.str数据流。我在这个放入了一个表 ,目的就是查看过程中的数据是怎么样的。点表模块,执行(会报错,只要telco的文件重新导出一下就行了,这样软件就能找到文件啦).

这就是初始化数据的内容,第一列大概是注册地,还有年龄,婚否,收入,学历,等信息。最后一列,应该是他是否购买了商品。
这个小笔,你点击以下,表里面的英文就数字化了。怎么数字化,应该能看出来。比如说:区域,深圳也就南山,宝安,福田,龙岗,一个地点配个数据就好了。教育程度,大学1,研究生2,博士3,其他4,这样就能数字化了。
圈2  type,双击,这里都是数据类型和属性的设置,最后一个设置成输出,其他的自动读取就可以啦。哪些是范围,离散。如果选的不合适,电脑处理起来就会比较慢。
圈3,是图标类,输出的数据分析,

这个是数据审核(圈3模块)可以统计分析数据表格的内容。
圈4,是一个模块组,里面包含很多模块,在工程流那边可以看到,
这个模块的功能就是缺失值的处理,

内部结构。两个黄色的是决策树。
填充,然后在填充,可能一次只填充一个吧。在过滤,就是几个属性,整行删除。比如,我不需要日期这个属性,就可以用filter temp删除。
圈5,功能一样的。
圈6,异常点检测模型。
圈7,特征选择算法。
整体的内容了解后,现在开始细节内容。首先是数据的特点。
圈1,telco.sav是电话使用客户的情况,超市,办理会员卡,类型的数据,里面有很多的空值,还有很多不应该是0的地方写了0,longmath这一列的数据就是根据其他列算出来的。loglong也是。其他特点没有看出来。
圈2,是类型的设定,设定本身对数据是没有影响的。但是对后面的监督学习有影响。没有任何的过滤功能。
圈3

最大值,最小值,范围,平均值,因为是集合嘛,自然没有这些属性。如果类型是范围就有啦。
这里涉及到偏度,最上面正偏度,中间不偏,下面负偏度。
平均值和标准差,应该不需要解释。唯一(就是里面有几个数字),有效,就是用到的数据除以总数据量。
这个模块也可以设计离群值(可能离群了就不做计算了)。大于多少,就认为是误差点啦。为了计算更准确。
圈4.要开始进行决策树,看看每个属性的人有多大程度会继续选购产品。
两个决策树,其中一个是equipmon,一个是loglong。为何是两个。是两个不同的初始点,两个都比较合适作为初始点,然后看两种分类的性能。
可视化数据挖掘应用实例一则——某银行信贷规则评估 吴源林 (上海财经大学MBA 学院,上海 200083) 摘要:本文应用 Clementine 工具,通过对某银行评估客户信用申请的资料挖掘,展示 了数据挖掘中遇到的问题和解决思路。 关键词:数据挖掘;决策树;Clementine 数据挖掘是运用模式识别技术,以及统计和数 学知识,通过对大量的、不完全的、有噪声的、模 糊的、随机的数据集进行详尽审查挖掘,以发现数 据中内在的关联性、特征和趋势。数据挖掘综合了 多种学科技术,能提供数据分类、聚类、关联和预 测等功能。 近年来,数据挖掘技术已经在 国外多行业中得到了普遍应用,尤 其在金融、电信、零售等领域。许 多企业纷纷利用数据挖掘技术作为 他们获取竞争优势的战略工具,典 型的数据挖掘应用包括生产营运管 理、营销管理和信用分析等。一些 软件公司也推出了功能强大、用户 友好的数据挖掘应用软件,如SAS 公司的Data Miner,SPSS 公司的 Clementine,IBM Intelligent Miner 等,微软公司在其客户关系管理软 件CRM3.0 中也集成了部分数据挖 掘功能。 目前国内不少企业也正在引进 和开始实施这些技术,以期提高其 决策管理能力和竞争优势。但数据 挖掘不仅仅是一个技术运用问题, 其涉及到商务活动中的各个方面。 如果我们对所研究的问题和数据挖掘方法的认识不 够深入的话,则很可能得到错误的信息,造成巨大 的经济损失。 本文通过对日本某银行审批客户申请贷款的记 录进行挖掘,展示数据挖掘中可能遇到的问题和解 决思路,并希望能起到抛砖引玉的作用。 数据挖掘功能的强大性,使其几乎可以运用于 任何商业或科研领域,为了保障数据挖掘的质量和 有效性,SPSS 公司联合几大行业巨头制定了“数据 挖掘跨行业标准流程”(CRISP-DM1)。我们下面的 挖掘过程也将严格按照该流程进行。为清晰展现整 个数据挖掘流程, 我们使用了SPSS 公司的 Clementine 工具。该工具使用节点连接的方式建立 模型,能让我们直观了解建模过程,并把注意力集 中在具体问题的分析上。 一、商业理解,亦即研究理解阶段 这一阶段把项目的目标和要求用清晰的,并把 这些目标和制约条件转化成数据挖掘问题的定义, 形成一个初步实现目标的策略; 在本例中,我们的目标是要找出银行批准或否
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值