说明:软件里面的帮助---》应用程序实例,按照这里面的顺序来的。
我
毛华望
QQ849886241。技术博客http://blog.csdn.net/my_share
1,
准备分析数据(数据审核)
按照应用程序实例文本的指示,打开
telco_dataaudit.str数据流。我在这个放入了一个表
,目的就是查看过程中的数据是怎么样的。点表模块,执行(会报错,只要telco的文件重新导出一下就行了,这样软件就能找到文件啦).
这就是初始化数据的内容,第一列大概是注册地,还有年龄,婚否,收入,学历,等信息。最后一列,应该是他是否购买了商品。
这个小笔,你点击以下,表里面的英文就数字化了。怎么数字化,应该能看出来。比如说:区域,深圳也就南山,宝安,福田,龙岗,一个地点配个数据就好了。教育程度,大学1,研究生2,博士3,其他4,这样就能数字化了。
圈2 type,双击,这里都是数据类型和属性的设置,最后一个设置成输出,其他的自动读取就可以啦。哪些是范围,离散。如果选的不合适,电脑处理起来就会比较慢。
圈3,是图标类,输出的数据分析,
这个是数据审核(圈3模块)可以统计分析数据表格的内容。
圈4,是一个模块组,里面包含很多模块,在工程流那边可以看到,
这个模块的功能就是缺失值的处理,
内部结构。两个黄色的是决策树。
填充,然后在填充,可能一次只填充一个吧。在过滤,就是几个属性,整行删除。比如,我不需要日期这个属性,就可以用filter temp删除。
圈5,功能一样的。
圈6,异常点检测模型。
圈7,特征选择算法。
整体的内容了解后,现在开始细节内容。首先是数据的特点。
圈1,telco.sav是电话使用客户的情况,超市,办理会员卡,类型的数据,里面有很多的空值,还有很多不应该是0的地方写了0,longmath这一列的数据就是根据其他列算出来的。loglong也是。其他特点没有看出来。
圈2,是类型的设定,设定本身对数据是没有影响的。但是对后面的监督学习有影响。没有任何的过滤功能。
圈3,
最大值,最小值,范围,平均值,因为是集合嘛,自然没有这些属性。如果类型是范围就有啦。
这里涉及到偏度,最上面正偏度,中间不偏,下面负偏度。
平均值和标准差,应该不需要解释。唯一(就是里面有几个数字),有效,就是用到的数据除以总数据量。
这个模块也可以设计离群值(可能离群了就不做计算了)。大于多少,就认为是误差点啦。为了计算更准确。
圈4.要开始进行决策树,看看每个属性的人有多大程度会继续选购产品。
两个决策树,其中一个是equipmon,一个是loglong。为何是两个。是两个不同的初始点,两个都比较合适作为初始点,然后看两种分类的性能。