【MachineLearning】数据挖掘中的分类和聚类的区别

最新推荐文章于 2023-12-29 01:48:32 发布

Alice熹爱学习

最新推荐文章于 2023-12-29 01:48:32 发布

阅读量1.5k

点赞数

分类专栏： MachineLearning 文章标签： MachineLearning 分类聚类

本文链接：https://blog.csdn.net/aliceyangxi1987/article/details/49799481

版权

MachineLearning 同时被 2 个专栏收录

36 篇文章 8 订阅

订阅专栏

待续

1 篇文章 0 订阅

订阅专栏

参考：

http://www.cnblogs.com/batys/p/3274138.html

分类	聚类
是一种有指导的学习，即每个训练样本的数据对象已经有类标识，通过学习可以形成表达数据对象与类标识间对应的知识是根据样本数据形成的类知识并对源数据进行分类进而也可以预测未来数据的归类	是一种无指导学习是在预先不知道欲划分类的情况下，根据信息相似度原则进行信息聚类的一种方法。进行聚类前并不知道将要划分成几个组和什么样的组，也不知道根据哪些空间区分规则来定义组。目的是使得属于同类别的对象之间的差别尽可能的小，而不同类别上的对象的差别尽可能的大。
应用：例如医疗诊断、信用卡的信用分级、图像模式识别	广泛应用于商业、生物、地理、网络服务等多种领域。
方法：分类规则、决策树、数学公式和神经网络	聚类技术主要是以统计方法、机器学习、神经网络等方法为基础。比较有代表性的聚类技术是基于几何距离的聚类方法，如欧氏距离、曼哈坦距离、明考斯基距离等。常见的聚类算法包括：K-均值聚类算法、K-中心点聚类算法、CLARANS、BIRCH、CLIQUE、DBSCAN等
分类的目的是学会一个分类函数或分类模型(也常常称作分类器), 该模型能把数据库中的数据项映射到给定类别中的某一个类中	目的旨在发现空间实体的属性间的函数关系，挖掘的知识用以属性名为变量的数学方程来表示。
分类和回归都可用于预测分类的输出是离散的类别值，而回归的输出是连续数值。
构造分类器需要有一个训练样本数据集作为输入训练集由一组数据库记录或元组构成，每个元组是一个由有关字段(又称属性或特征)值组成的特征向量，此外，训练样本还有一个类别标记。一个具体样本的形式可表示为 (v1,v2,...,vn; c）其中vi表示字段值，c表示类别。
分类器的构造方法有统计方法、机器学习方法、神经网络方法	聚类技术主要是以统计方法、机器学习、神经网络等方法为基础。比较有代表性的聚类技术是基于几何距离的聚类方法，如欧氏距离、曼哈坦距离、明考斯基距离等。常见的聚类算法包括：K-均值聚类算法、K-中心点聚类算法、CLARANS、BIRCH、CLIQUE、DBSCAN等
有三种分类器评价或比较尺度： 1)预测准确度；2)计算复杂度；3)模型描述的简洁度。
分类的效果一般和数据的特点有关有的数据噪声大，有的有空缺值，有的分布稀疏，有的字段或属性间相关性强，有的属性是离散的而有的是连续值或混合式的。目前普遍认为不存在某种方法能适合于各种特点的数据

Alice熹爱学习

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【MachineLearning】数据挖掘中的分类和聚类的区别

参考：http://www.cnblogs.com/batys/p/3274138.html分类聚类是一种有指导的学习，即每个训练样本的数据对象已经有类标识，通过学习可以形成表达数据对象与类标识间对应的知识是根据样本数据形成的类知识并对源数据进行分类进而也可以预测未来数据的归类是一种无指导学习是在预先不知道欲划分类的情
复制链接

扫一扫

专栏目录

分类	聚类
是一种有指导的学习，即每个训练样本的数据对象已经有类标识，通过学习可以形成表达数据对象与类标识间对应的知识是根据样本数据形成的类知识并对源数据进行分类进而也可以预测未来数据的归类	是一种无指导学习是在预先不知道欲划分类的情况下，根据信息相似度原则进行信息聚类的一种方法。进行聚类前并不知道将要划分成几个组和什么样的组，也不知道根据哪些空间区分规则来定义组。目的是使得属于同类别的对象之间的差别尽可能的小，而不同类别上的对象的差别尽可能的大。
应用：例如医疗诊断、信用卡的信用分级、图像模式识别	广泛应用于商业、生物、地理、网络服务等多种领域。
方法：分类规则、决策树、数学公式和神经网络	聚类技术主要是以统计方法、机器学习、神经网络等方法为基础。比较有代表性的聚类技术是基于几何距离的聚类方法，如欧氏距离、曼哈坦距离、明考斯基距离等。常见的聚类算法包括：K-均值聚类算法、K-中心点聚类算法、CLARANS、BIRCH、CLIQUE、DBSCAN等
分类的目的是学会一个分类函数或分类模型(也常常称作分类器), 该模型能把数据库中的数据项映射到给定类别中的某一个类中	目的旨在发现空间实体的属性间的函数关系，挖掘的知识用以属性名为变量的数学方程来表示。
分类和回归都可用于预测分类的输出是离散的类别值，而回归的输出是连续数值。
构造分类器需要有一个训练样本数据集作为输入训练集由一组数据库记录或元组构成，每个元组是一个由有关字段(又称属性或特征)值组成的特征向量，此外，训练样本还有一个类别标记。一个具体样本的形式可表示为 (v1,v2,...,vn; c）其中vi表示字段值，c表示类别。
分类器的构造方法有统计方法、机器学习方法、神经网络方法	聚类技术主要是以统计方法、机器学习、神经网络等方法为基础。比较有代表性的聚类技术是基于几何距离的聚类方法，如欧氏距离、曼哈坦距离、明考斯基距离等。常见的聚类算法包括：K-均值聚类算法、K-中心点聚类算法、CLARANS、BIRCH、CLIQUE、DBSCAN等
有三种分类器评价或比较尺度： 1)预测准确度；2)计算复杂度；3)模型描述的简洁度。
分类的效果一般和数据的特点有关有的数据噪声大，有的有空缺值，有的分布稀疏，有的字段或属性间相关性强，有的属性是离散的而有的是连续值或混合式的。目前普遍认为不存在某种方法能适合于各种特点的数据