数据的变换和离散化(利用决策树算法实现简单分类)

本文介绍了使用决策树算法对鸢尾花数据集进行分类的实验,包括数据的预处理、离散化以及使用开源工具KNIME进行数据挖掘。通过决策树,对花瓣宽度和长度进行划分,清晰展示不同鸢尾花品种的特征。实验结果显示决策树算法能有效分类数据,适用于销售推荐和科学研究等领域。
摘要由CSDN通过智能技术生成

【项目目的】
1) 对实验数据集数据进行一定的变换,并离散化数据。
【项目原理】
一. 数据的变换
在数据变换中,数据被变换或统一成适合于挖掘的形式。数据变换策略主要有光滑、属性构造、聚集、规范化、离散化和由标称数据产生概念分层。
例如:通过规范化变换数据

二. 数据的离散化
离散化技术可以根据如何进行离散化加以分类。离散化可以分为监督和非监督的离散化,自顶向下离散化(分裂)。数据离散化也是数据归约形式。离散化的方式主要是分箱,直方图分析以及聚类分析,决策树分析,相关分析。
本实验具体使用决策树算法分析鸢尾花瓣的种类
决策树算法:决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。决策树算法构造决策树来发现数据中蕴涵的分类规则.如何构造精度高、规模小的决策树是决策树算法的核心内容。决策树构造可以分两步进行。第一步,决策树的生成:由训练样本集生成决策树的过程。一般情况下,训练样本数据集是根据实际需要有历史的、有一定综合程度的,用于数据分析处理的数据集。第二步,决策树的剪枝:决策树的剪枝是对上一阶段生成的决策树进行检验、校正和修下的过程,主要是用新的样本数据集(称为测试数据集)中的数据校验决策树生成过程中产生的初步规则,将那些影响预衡准确性的分枝剪除。
三. 使用开源软件KNIME进行挖掘
Knime是基于Eclipse的开源数据挖掘软件,它通过工作流的方式来完成数据仓库以及数据挖掘中数据的抽取-转换-加载操作。其中工作流又是由各个功能便利的结点来完成,节点之间相互独立

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值