机器学习之归类理论

风凛月

已于 2024-11-07 14:57:48 修改

阅读量895

点赞数 7

文章标签：机器学习人工智能

于 2024-10-27 14:39:47 首次发布

本文链接：https://blog.csdn.net/m0_62593409/article/details/143268688

版权

归类理论

文章目录

归类理论

1. 机器学习基础回顾

学习方法构成：学习方法由模型、策略和算法组成，包括监督学习、无监督学习和自监督学习等，目标是找到未知目标函数，使得预测值接近真实值。
机器学习流派：2015 年佩德罗・多明戈斯将机器学习分为符号主义（决策树）、联结主义（深度学习）、进化主义（遗传编码）、贝叶斯派（朴素贝叶斯）和行为类推主义（支持向量机和K近邻）5 大流派。
机器学习公理化探讨：一个学科的特定假设即公理，机器学习能否公理化是一个研究问题，已有学习理论包括 PAC 学习理论、统计学习理论和概率图理论等。

2. 概念与归类

概念的定义
- 经典理论（亚里士多德）：概念有一个命题表示，可分为内涵表示和外延表示。
- 原型理论（Eleanor Rosch，1978）：概念有一个原型表示。
- 样例理论（Medin & Schaffer，1978）：概念有多个样例表示。
- 知识理论（Murphy & Medin，1985）：概念是一个知识框架的组成部分。
归类的认知假设
- 人具有归类能力，自然希望计算机也具有，归类是概念的使用，其准则可概括为 “归哪类，像哪类；像哪类，归哪类”。
- 归类问题（机器学习）：给予概念的有限外延子集，得到内涵表示，归类算法有输入和输出，分别体现希望学到的和实际学到的类信息。

3. 类表示公理

归类输入与输出的表示
- 均有内蕴表示表示和外部表示。
- 归类输入外部表示包括对象特性输入表示和类外延表示，类外延表示可由划分矩阵表示，有硬划分、软划分和可能性划分等不同约束。
- 归类输出外部表示类似，也包括特性输出表示和类外延表示，同样有不同划分矩阵。
指派算子：用于确定对象在归类输入和输出端被指派到的类，体现对象与类的外显对应关系。

$X$ （对象特性输入表示）：在图像分类中，可以是一个由图像像素值组成的矩阵。
$U$ (归类输入的类外延表示）：图像分类矩阵，通过硬化分或者软划分进行图像分类，类似ONE-HOT向量，是哪种就为1其他为0。
$\underline{X}$ （归类输入的内蕴（认知）表示）：包含人类对事物的一些抽像潜在认知，比如猫有四条腿有尾巴、面部特征等概念。这些概念并不是直接从图像像素中体现的，而是人类主观认知中的概念，用于与输入图像的特征进行相似性比较。
$Sim_X$ （输入类相似性映射）：：当一张新的图片（其特征为 $x_k$ ）输入时， $Sim_X$ 会计算 $x_k$ 与每个类内蕴表 $X_i$ 的相似度。
$Y$ （对象特性输出表示）：经过分类算法处理后，对原始图像特征进行了某种变换后的表示。
$V$ （归类输出的类外延表示）：与 $U$ 一样，也是通过矩阵判断隶属度。
$Sim_Y$ （输出类相似性映射）：与输入类似。
总的来说，归类输入是期望学到的，归类输出是实际学到的。

4.归类表示公理

三大归类公理
- 样本可分性公理（SS）：一个对象总有唯一一个类与其最相似。
  
  考虑一个动物分类的场景，有猫、狗、兔子等类别。对于一只特定的动物个体，比如一只小猫，它与猫这个类别的特征最为相似，而与狗和兔子等其他类别有明显的区别。在这个例子中，这只小猫就是那个对象，猫类就是与它最相似的唯一一个类，满足样本可分性公理。
- 类可分性公理（CS）：一个类至少有一个对象与其最相似。
  
  仍然以动物分类为例，对于猫这个类别，肯定存在一些猫的个体，它们具有猫类的典型特征，与猫类是最相似的。比如一只波斯猫，它的外貌、习性等都符合猫类的特征，这就说明猫类至少有一个对象（波斯猫）与其最相似，满足类可分性公理。
- 归类等价公理（CE）：对于任意一个类，其认知表示与外延表示的归类能力等价。
  
  假设我们对颜色进行分类，有红色、蓝色、绿色等类别。从认知表示上，我们知道红色是一种特定的颜色概念，它在我们的认知中有其独特的特征（如波长范围等）。从外延表示上，所有被我们认定为红色的物体（如红苹果、红衣服等）都可以通过其颜色特征被归为红色类别。

5.总结

在深度学习中，神经网络的卷积层等结构用于自动提取数据的特征。例如在图像分类任务中，卷积神经网络（CNN）通过卷积层提取图像的各种特征，这些特征可以看作是对图像对象的一种表示，类似于归类理论中的类表示。不同的卷积核提取不同的特征，这些特征组合起来可以对图像所属的类别进行判断，这与归类理论中通过多种特征来确定对象所属类别有相似之处。