clementine软件里面dome的演示实验的分析和说明

最新推荐文章于 2023-04-23 16:31:18 发布

my_share

最新推荐文章于 2023-04-23 16:31:18 发布

阅读量4.7k

点赞数 5

分类专栏： FPGA机器学习数据挖掘文章标签：数据挖掘机器学习 clementine

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/my_share/article/details/52131880

版权

该博客介绍了如何利用Clementine软件进行数据挖掘，通过异常检测预筛选并用神经网络深入分析异常记录，特别是针对农业补贴申请的异常情况。案例涵盖了从预处理到模型构建的步骤，包括电信客户流失分析、时间序列预测、贷款违约预测等场景。

摘要由CSDN通过智能技术生成

说明：软件里面的帮助---》应用程序实例，按照这里面的顺序来的。

我毛华望 QQ849886241。技术博客http://blog.csdn.net/my_share

1，准备分析数据（数据审核）

按照应用程序实例文本的指示，打开 telco_dataaudit.str数据流。我在这个放入了一个表，目的就是查看过程中的数据是怎么样的。点表模块，执行（会报错，只要telco的文件重新导出一下就行了，这样软件就能找到文件啦）.

这就是初始化数据的内容，第一列大概是注册地，还有年龄，婚否，收入，学历，等信息。最后一列，应该是他是否购买了商品。

这个小笔，你点击以下，表里面的英文就数字化了。怎么数字化，应该能看出来。比如说：区域，深圳也就南山，宝安，福田，龙岗，一个地点配个数据就好了。教育程度，大学1，研究生2，博士3，其他4，这样就能数字化了。

圈2 type，双击，这里都是数据类型和属性的设置，最后一个设置成输出，其他的自动读取就可以啦。哪些是范围，离散。如果选的不合适，电脑处理起来就会比较慢。

圈3，是图标类，输出的数据分析，

这个是数据审核（圈3模块）可以统计分析数据表格的内容。

圈4，是一个模块组，里面包含很多模块，在工程流那边可以看到，

这个模块的功能就是缺失值的处理，

内部结构。两个黄色的是决策树。

填充，然后在填充，可能一次只填充一个吧。在过滤，就是几个属性，整行删除。比如，我不需要日期这个属性，就可以用filter temp删除。

圈5，功能一样的。

圈6，异常点检测模型。

圈7，特征选择算法。

整体的内容了解后，现在开始细节内容。首先是数据的特点。

圈1，telco.sav是电话使用客户的情况，超市，办理会员卡，类型的数据，里面有很多的空值，还有很多不应该是0的地方写了0，longmath这一列的数据就是根据其他列算出来的。loglong也是。其他特点没有看出来。

圈2，是类型的设定，设定本身对数据是没有影响的。但是对后面的监督学习有影响。没有任何的过滤功能。

圈3，

最大值，最小值，范围，平均值，因为是集合嘛，自然没有这些属性。如果类型是范围就有啦。

这里涉及到偏度

，最上面正偏度，中间不偏，下面负偏度。

平均值和标准差，应该不需要解释。唯一（就是里面有几个数字），有效，就是用到的数据除以总数据量。

这个模块也可以设计离群值（可能离群了就不做计算了）。大于多少，就认为是误差点啦。为了计算更准确。

圈4.要开始进行决策树，看看每个属性的人有多大程度会继续选购产品。

两个决策树，其中一个是equipmon，一个是loglong。为何是两个。是两个不同的初始点，两个都比较合适作为初始点，然后看两种分类的性能。

最低0.47元/天解锁文章

关注

5
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。