数据挖掘的类型定义

最新推荐文章于 2024-08-23 11:56:20 发布

timothyzh

最新推荐文章于 2024-08-23 11:56:20 发布

阅读量1k

点赞数

分类专栏：数据挖掘文章标签：数据挖掘 classification training dataset 数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/timothyzh/article/details/5754198

版权

数据挖掘专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、从数据分析（data analysis）讨论

预测问题（prediction problems）的两个主要类型是分类（classification）和数值预测（numeric prediction）。

这些问题都会涉及到训练数据集（training dataset）。从数据库的角度看，数据集中的每个元素称作训练元组（training tuple）；而在机器学习中，这些元素则称为训练样本（training samples）。

每个元组都包含n元，纵向看，每一元都是一种属性（attribute）的取值。因此，每个训练元组也就成为了一个n维的属性向量（attribute vector）。将n维属性向量的某1维作为预测目标，预测问题的本质就是用其他维的特征来预测这个属性的取值。

每个属性的取值可能为3个类型中的一种。

1. 类别标签（categorical label）：这些取值形成一个无序（unordered）的集合，例如，各种颜色，yes或no等等

2. 有序值变量（ordered-value variable）：可以排序的一组取值，例如，高、中、低，婴儿、儿童、少年、青年、中年、老年，等等

3. 连续值函数（continuous-valued function）：也就是取连续的实数值了。

当预测目标属性的取值为类别标签时，该预测问题就称作分类（classification），训练得到的模型称作分类机（classifier）。而当预测目标属性的取值为有序值变量或连续函数时，该预测问题就定义为数值预测（numeric pridiction），简称预测（prediction），训练得到的模型称作预测机（predictor）。由于回归分析（regression analysis）是最常用的数值预测方法，有时就把数值预测和回归分析的定义混淆了。

二、从机器学习（machine learning）讨论

1. 上面的分类（classification）预测问题从机器学习角度定义为监督式学习（supervised learning），这是因为在分类标签知道的情况下，进行分类的学习。

2. 而在分类标签不知道、不清楚或不需要时，对训练数据集进行的分类，称作非监督式学习（unsupervised learning），也就是聚类（clustering）。

3. 有时还会出现，参考某个或多个分类标签，根据其他属性对数据集进行分类的问题。这时称作半监管式学习（semi-supervised learning）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘的类型定义

一、从数据分析（data analysis）讨论预测问题（prediction problems）的两个主要类型是分类（classification）和数值预测（numeric prediction）。这些问题都会涉及到训练数据集（training dataset）。从数据库的角度看，数据集中的每个元素称作训练元组（training tuple）；而在机器学习中，这些元素则称为训练样
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。