日报-0523
今日主要工作是对新想法的代码进行编写,即使用样本在邻居样本的投影值来体现样本的相对坐标,并以此作为损失函数,训练模型。
但实验效果好像欠佳,不怎么好,下面附实验与代码截图,今日主要工作还包括训练模型、调参。
实验过程:
代码截图:
日报-0524
今日主要工作:
- 继续昨日实验
通过大量参数的尝试,发现效果均欠佳,无法达到较好的水平,因此考虑放弃该策略。 - 新想法
将样本标签分布与其邻居的关系作为损失函数,反而导致预测性能下降,说明强行约束预测值可能不行。因此,考虑将样本特征与其位置信息作为附加特征,来增加样本的可用信息。
(1) 获取训练集中样本特征的均值
(2) 将所有样本的特征值与均值相减,得到相对值。
(3) 使用训练集中的相对值来进行k-means聚类,得到k个聚类中心
(4) 将所有相对值分别映射到这k个聚类中心上,得到一个 nk 的矩阵。其中n代表样本数量,每一行代表一个样本在k*个聚类中心的位置投影。
(5) 将这些位置信息追加在样本的原始特征上,扩展样本信息。
(6) 使用特征扩展后的样本来训练模型。
代码部分还在编写,未编写完,需等待初步实验结果判断是否可行。
日报-0525
今日主要工作:
完成入党申请的资料填写,编写昨日想法的代码,并跑起来,以下为代码截图:
以下部分为实验截图,初步实验的结果如下所示:
训练集上的效果与验证集上面的效果有较大差异,还在排查分析,算法总体效果也不算好。
日报-0526
对之前的策略进行了大量的实验,其结果基本都不算好,因此想放弃使用simhash作为扩展特征的想法。思路转换为如何扩增样本,首先要解决的是为什么要扩增样本,这个问题正在思考。
以下是对昨日想法进行的实验,实验变量包括“激活函数”、“神经网络层数”、“每层神经网络的节点个数”和“批大小”五个因素,其结果如图所示,对5个变量进行了400余次的实验,并对实验结果进行了统计,明日将把实验效果最好的参数提取出来,再在其他数据集上进行实验看看效果。
日报-0527
今日把昨日效果最好的参数迁移到其他数据集上,发现效果还是不好,因此放弃该想法。
接着把把LDL的标签分布转换为单标签进行数据统计,以分布值最高的作为样本标签,其结果如下所示:
通过图片我们可以大致看出,若以单标签的方面来看的话,确实存在一定的不平衡问题。需要思考如何解决。
日报-0530
近日工作主要集中在代码编写,记录实验结果。从实验结果来看,使用k-means+smote的数据增强的效果不稳定,在某些数据集上效果好,在某些数据集上效果又不好,目前正在正在根据实验结果调整参数,寻找 k-means 中的 k 与数据集的关系。
附代码截图与实验结果截图(蓝色代表有提升,红色代表效果变差):