归类理论
1. 机器学习基础回顾
- 学习方法构成:学习方法由模型、策略和算法组成,包括监督学习、无监督学习和自监督学习等,目标是找到未知目标函数,使得预测值接近真实值。
- 机器学习流派:2015 年佩德罗・多明戈斯将机器学习分为符号主义(决策树)、联结主义(深度学习)、进化主义(遗传编码)、贝叶斯派(朴素贝叶斯)和行为类推主义 (支持向量机和K近邻)5 大流派。
- 机器学习公理化探讨:一个学科的特定假设即公理,机器学习能否公理化是一个研究问题,已有学习理论包括 PAC 学习理论、统计学习理论和概率图理论等。
2. 概念与归类
- 概念的定义
- 经典理论(亚里士多德):概念有一个命题表示,可分为内涵表示和外延表示。
- 原型理论(Eleanor Rosch,1978):概念有一个原型表示。
- 样例理论(Medin & Schaffer,1978):概念有多个样例表示。
- 知识理论(Murphy & Medin,1985):概念是一个知识框架的组成部分。
- 归类的认知假设
- 人具有归类能力,自然希望计算机也具有,归类是概念的使用,其准则可概括为 “归哪类,像哪类;像哪类,归哪类”。
- 归类问题(机器学习):给予概念的有限外延子集,得到内涵表示,归类算法有输入和输出,分别体现希望学到的和实际学到的类信息。
3. 类表示公理
- 归类输入与输出的表示
- 均有内蕴表示表示和外部表示。
- 归类输入外部表示包括对象特性输入表示和类外延表示,类外延表示可由划分矩阵表示,有硬划分、软划分和可能性划分等不同约束。
- 归类输出外部表示类似,也包括特性输出表示和类外延表示,同样有不同划分矩阵。
- 指派算子:用于确定对象在归类输入和输出端被指派到的类,体现对象与类的外显对应关系。
X X X(对象特性输入表示):在图像分类中,可以是一个由图像像素值组成的矩阵。
U U U(归类输入的类外延表示):图像分类矩阵,通过硬化分或者软划分进行图像分类,类似ONE-HOT向量,是哪种就为1其他为0。
X ‾ \underline{X} X(归类输入的内蕴(认知)表示):包含人类对事物的一些抽像潜在认知,比如猫有四条腿有尾巴、面部特征等概念。这些概念并不是直接从图像像素中体现的,而是人类主观认知中的概念,用于与输入图像的特征进行相似性比较。
S i m X Sim_X SimX(输入类相似性映射)::当一张新的图片(其特征为 x k x_k xk)输入时, S i m X Sim_X SimX会计算 x k x_k xk与每个类内蕴表 X i X_i Xi的相似度。
Y Y Y(对象特性输出表示):经过分类算法处理后,对原始图像特征进行了某种变换后的表示。
V V V(归类输出的类外延表示):与 U U U一样,也是通过矩阵判断隶属度。
S i m Y Sim_Y SimY(输出类相似性映射):与输入类似。
总的来说,归类输入是期望学到的,归类输出是实际学到的。
4.归类表示公理
-
三大归类公理
-
样本可分性公理(SS):一个对象总有唯一一个类与其最相似。
考虑一个动物分类的场景,有猫、狗、兔子等类别。对于一只特定的动物个体,比如一只小猫,它与猫这个类别的特征最为相似,而与狗和兔子等其他类别有明显的区别。在这个例子中,这只小猫就是那个对象,猫类就是与它最相似的唯一一个类,满足样本可分性公理。
-
类可分性公理(CS):一个类至少有一个对象与其最相似。
仍然以动物分类为例,对于猫这个类别,肯定存在一些猫的个体,它们具有猫类的典型特征,与猫类是最相似的。比如一只波斯猫,它的外貌、习性等都符合猫类的特征,这就说明猫类至少有一个对象(波斯猫)与其最相似,满足类可分性公理。
-
归类等价公理(CE):对于任意一个类,其认知表示与外延表示的归类能力等价。
假设我们对颜色进行分类,有红色、蓝色、绿色等类别。从认知表示上,我们知道红色是一种特定的颜色概念,它在我们的认知中有其独特的特征(如波长范围等)。从外延表示上,所有被我们认定为红色的物体(如红苹果、红衣服等)都可以通过其颜色特征被归为红色类别。
-
5.总结
- 在深度学习中,神经网络的卷积层等结构用于自动提取数据的特征。例如在图像分类任务中,卷积神经网络(CNN)通过卷积层提取图像的各种特征,这些特征可以看作是对图像对象的一种表示,类似于归类理论中的类表示。不同的卷积核提取不同的特征,这些特征组合起来可以对图像所属的类别进行判断,这与归类理论中通过多种特征来确定对象所属类别有相似之处。