RongBYReport-20220530

博主在研究中尝试了使用邻近样本投影作为损失函数的策略,但效果不佳。随后转向样本特征扩展,通过k-means聚类与位置信息结合,实验结果不稳定。最终放弃simhash扩展,聚焦于解决样本不平衡问题和数据增强方法的优化。
摘要由CSDN通过智能技术生成

日报-0523

今日主要工作是对新想法的代码进行编写,即使用样本在邻居样本的投影值来体现样本的相对坐标,并以此作为损失函数,训练模型。
但实验效果好像欠佳,不怎么好,下面附实验与代码截图,今日主要工作还包括训练模型、调参。
实验过程:
训练过程

代码截图:
在这里插入图片描述

日报-0524

今日主要工作:

  1. 继续昨日实验
    通过大量参数的尝试,发现效果均欠佳,无法达到较好的水平,因此考虑放弃该策略。
  2. 新想法
    将样本标签分布与其邻居的关系作为损失函数,反而导致预测性能下降,说明强行约束预测值可能不行。因此,考虑将样本特征与其位置信息作为附加特征,来增加样本的可用信息。
    (1) 获取训练集中样本特征的均值
    (2) 将所有样本的特征值与均值相减,得到相对值。
    (3) 使用训练集中的相对值来进行k-means聚类,得到k个聚类中心
    (4) 将所有相对值分别映射到这k个聚类中心上,得到一个 nk 的矩阵。其中n代表样本数量,每一行代表一个样本在k*个聚类中心的位置投影。
    (5) 将这些位置信息追加在样本的原始特征上,扩展样本信息。
    (6) 使用特征扩展后的样本来训练模型。

在这里插入图片描述
代码部分还在编写,未编写完,需等待初步实验结果判断是否可行。

日报-0525

今日主要工作:
完成入党申请的资料填写,编写昨日想法的代码,并跑起来,以下为代码截图:
在这里插入图片描述
以下部分为实验截图,初步实验的结果如下所示:
训练集上的效果与验证集上面的效果有较大差异,还在排查分析,算法总体效果也不算好。

日报-0526

对之前的策略进行了大量的实验,其结果基本都不算好,因此想放弃使用simhash作为扩展特征的想法。思路转换为如何扩增样本,首先要解决的是为什么要扩增样本,这个问题正在思考。
以下是对昨日想法进行的实验,实验变量包括“激活函数”、“神经网络层数”、“每层神经网络的节点个数”和“批大小”五个因素,其结果如图所示,对5个变量进行了400余次的实验,并对实验结果进行了统计,明日将把实验效果最好的参数提取出来,再在其他数据集上进行实验看看效果。在这里插入图片描述
在这里插入图片描述

日报-0527

今日把昨日效果最好的参数迁移到其他数据集上,发现效果还是不好,因此放弃该想法。
接着把把LDL的标签分布转换为单标签进行数据统计,以分布值最高的作为样本标签,其结果如下所示:
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
通过图片我们可以大致看出,若以单标签的方面来看的话,确实存在一定的不平衡问题。需要思考如何解决。

日报-0530

近日工作主要集中在代码编写,记录实验结果。从实验结果来看,使用k-means+smote的数据增强的效果不稳定,在某些数据集上效果好,在某些数据集上效果又不好,目前正在正在根据实验结果调整参数,寻找 k-means 中的 k 与数据集的关系。
附代码截图与实验结果截图(蓝色代表有提升,红色代表效果变差):
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值