作者——Navoneel Chakrabarty
在数据科学领域,分类问题是一个非常普遍和重要的问题。例如:糖尿病视网膜病变、情绪分析、数字识别、癌症类型预测(恶性或良性)等。这些问题往往通过机器学习或深度学习来解决。像糖尿病视网膜病变或青光眼检测这样的项目中,纹理分析经常被使用,而不是传统的图像处理或深度学习等。虽然根据研究论文,深度学习在处理糖尿病视网膜病变方面有着极强的优越性。
补充:纹理分析指通过一定的提取出纹理特征参数,从而获得纹理的定量或定性描述的处理过程·纹理分析方法按其性质而言,可分为两大类:统计分析方法和结构分析方法。纹理分析在遥感图像、 X、细胞和处理方面有广泛的应用。关于纹理,还没有一个统一的数学模型。它起源于表征纺织品表面性质的纹理概念,可以用来描述任何物质组成成分的排列情况,例如医学上X 射线照片中的、血管纹理、航天(或航空)地形照片中的岩性纹理等。图像处理中的视觉纹理通常理解为某种基本模式(色调基元)的重复排列。
现在,我们再回到主题。相关研究论文如下:
"糖尿病视网膜病变检测的深度学习方法"链接:https://ieeexplore.ieee.org/document/8596839
在分类问题中,一个特定类的预测往往要涉及多个类。换句话说,它还可以以这样一种方式构建:将特定实例(特征空间几何中的数据点)保存在特定区域下(某一类),并且与其他区域分离(其他类)。这种与其他区域的分离的"现象"我们称之为决策边界的可视化。在特征空间中决策边界的可视化是在散点图上完成的。其中每个点表示数据集的一个数据点,轴线表示特征。决策边界将数据点划分为多个区域,这些区域就是(我前面所谈及的)数据点所属的类。
决策边界的重要性/意义:
在使用数据集训练机器学习模型之后,我们通常需要可视化特征空间中数据点的类。散点图上的决策边界就是出于这个目的。而散点图更是包含着属于不同类别的数据点(用颜色或形状表示),决策边界可以通过多种不同的策略绘制:
单线决策边界:在散点图上绘制决策边界的基本策略是找到一条将数据点分隔成不同类区域的单线。现在,利用训练过的模型找到与机器学习算法相关的参数,进而找到这条直线。然后利用得到的参数和机器学习算法找到直线坐标。如果你不知道ML算法的工作原理,那么你将无法继续进行下去。
基于轮廓的决策边界:另一种策略是绘制轮廓,这些轮廓是用匹配或紧密匹配的颜色包围数据点的区域——描绘数据点所属的类,以及描绘预测类的轮廓。这是最常用的策略,因为它不使用模型训练后得到的机器学习算法的参数和相关计算。但另一方面,我们并不能很好地用一条直线来分离数据点,也就是说这条直线只能通过训练后得到的参数及其坐标计算得到。
单线决策边界的范例演练:
在这里,我将演示基于逻辑回归的机器学习模型的单线决策边界。