数据挖掘笔记(6)——挖掘软件、测试数据

挖掘软件:

软件介绍

      数据挖掘:SPSS   

      数据统计: SPSS(简单易用,常用算法), SAS (入手有点困难,可编程)    STATA

    SVM(支持向量机)软件

Weka软件:

实验室使用,非商用

       参考网站:  www。chinakdd.com   www.wekacn.org

           Explorer: 算法可行性(对数据预处理,建立模型(分类、关联、聚类等))

           Experimenter:算法评估(使用多个算法对一组数据进行分析),完成分布式任务处理

         Knowledge FLow: 对大型数据处理的递增算法,画一个工作流

         Simple CLI: 简单的命令行

转换为rrdf格式

1.     进入explorer

2.     打开csv文件

3.     Save 为 rrdf格式

数据预处理

1.      删除无用属性,如id

2.      离散化:  直接修改 rrdf文件

简单操作:

1. 进入explorer 部分

2. 选择数据源 : 安装目录data下有实例数据

3. 预处理: 删除属性,离散化

4.     分类

选择部分数据作为训练集

        通过交叉验证防止过度拟合;

        correctly classified instances 代表成功率;

        confusion matrix对角线上数字是正确预测的

应用模型

将模型应用到剩下的数据中,在set中选择要应用的数据文件

聚类

选择【cluster】

没有训练数据,所以选择 Use Training Set

参考教程:

http://wenku.baidu.com/view/360d99146edb6f1aff001f40.html

数据库 UCI             

      有很多数据挖掘的实例数据

      加州大学尔湾分校   www.uci.edu

        下载地址: archive.ics.uci.edu/ml

数据流挖掘

    场景: 网络安全, 骚扰短信等,  金融市场,视频流挖掘

    特点: 高速到达, 连续不断的 , 计算一个精确结果不可能(时间要求高)

    模型: 收银机模型  十字转门模型

       算法:VFDT算法; fVFDT   UFFT(超快速森林算法)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值