机器学习
阿雨学弟
这个作者很懒,什么都没留下…
展开
-
不平衡数据集:SMOTE-D学习笔记
SMOTE-D在Bordeline SMOTE进行改进,解决了少数类生成时随机生成的问题,提高了可解释性。 SMOTE与其他方法相结合的方法有: 1.噪声滤波器 2.子采样方法(smote-RSB) 3.特征选择器(E-SMOTE) 4.修改SMOTE(Bordeline—SMOTE) Bordeline SMOTE 1.只对少数类中边界进行过采样,然后由这些对象生成合成对象 2.寻找边界的方法: (1)对于少数类中每一个对象,计算整个训练集中的最邻近对象 (2)如果最邻近对象中包括多数类和少数类,且多数原创 2021-04-22 01:34:31 · 466 阅读 · 0 评论 -
利用统计数据来验证分类器改进性能的假设
两个分类器在不同数据集的比较: 平均值 1.对于不同数据集的结果不具有可比性 2.但在相关问题上有意义,如不同机构的某种疾病的数据库 3.受极端值影响很大(毫无统计意义) 双T检验 1.只用在数据集差异相当时双T检验才有意义 需要数据集的样本足够大(~30)以满足正态分布。 2.受极端值的影响。 Wilcoxon 符号检验 使用非参数检验,不假设正态分布,同时受极端值影响小 符号检验 需要比Wilcoxon更多的数据集进行测试(好像感觉这个没啥用) 多个分类器在不同数据集的比较: F检验/方差分析:原创 2021-04-21 15:37:25 · 258 阅读 · 1 评论 -
对SVM支持向量机(1)
支持向量机(英语:support vector machine,常简称为SVM,又名支持向量网络)是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。 SVM大致可以分为三种 线性原创 2020-10-26 23:59:22 · 1571 阅读 · 3 评论