RongBYReport-20220530

小小码龙

已于 2022-05-30 21:27:29 修改

阅读量157

点赞数

分类专栏：学习记录文章标签：深度学习机器学习人工智能

于 2022-05-23 23:03:17 首次发布

本文链接：https://blog.csdn.net/qq_43826939/article/details/124937007

版权

学习记录专栏收录该内容

7 篇文章 0 订阅

订阅专栏

博主在研究中尝试了使用邻近样本投影作为损失函数的策略，但效果不佳。随后转向样本特征扩展，通过k-means聚类与位置信息结合，实验结果不稳定。最终放弃simhash扩展，聚焦于解决样本不平衡问题和数据增强方法的优化。

摘要由CSDN通过智能技术生成

日报-0523

今日主要工作是对新想法的代码进行编写，即使用样本在邻居样本的投影值来体现样本的相对坐标，并以此作为损失函数，训练模型。
但实验效果好像欠佳，不怎么好，下面附实验与代码截图，今日主要工作还包括训练模型、调参。
实验过程：
训练过程

代码截图：
在这里插入图片描述

日报-0524

今日主要工作：

继续昨日实验
通过大量参数的尝试，发现效果均欠佳，无法达到较好的水平，因此考虑放弃该策略。
新想法
将样本标签分布与其邻居的关系作为损失函数，反而导致预测性能下降，说明强行约束预测值可能不行。因此，考虑将样本特征与其位置信息作为附加特征，来增加样本的可用信息。
(1) 获取训练集中样本特征的均值
(2) 将所有样本的特征值与均值相减，得到相对值。
(3) 使用训练集中的相对值来进行k-means聚类，得到k个聚类中心
(4) 将所有相对值分别映射到这k个聚类中心上，得到一个 nk 的矩阵。其中n代表样本数量，每一行代表一个样本在k*个聚类中心的位置投影。
(5) 将这些位置信息追加在样本的原始特征上，扩展样本信息。
(6) 使用特征扩展后的样本来训练模型。

在这里插入图片描述
代码部分还在编写，未编写完，需等待初步实验结果判断是否可行。

日报-0525

今日主要工作：
完成入党申请的资料填写，编写昨日想法的代码，并跑起来，以下为代码截图：
在这里插入图片描述
以下部分为实验截图，初步实验的结果如下所示：
训练集上的效果与验证集上面的效果有较大差异，还在排查分析，算法总体效果也不算好。

日报-0526

对之前的策略进行了大量的实验，其结果基本都不算好，因此想放弃使用simhash作为扩展特征的想法。思路转换为如何扩增样本，首先要解决的是为什么要扩增样本，这个问题正在思考。
以下是对昨日想法进行的实验，实验变量包括“激活函数”、“神经网络层数”、“每层神经网络的节点个数”和“批大小”五个因素，其结果如图所示，对5个变量进行了400余次的实验，并对实验结果进行了统计，明日将把实验效果最好的参数提取出来，再在其他数据集上进行实验看看效果。在这里插入图片描述

日报-0527

今日把昨日效果最好的参数迁移到其他数据集上，发现效果还是不好，因此放弃该想法。
接着把把LDL的标签分布转换为单标签进行数据统计，以分布值最高的作为样本标签，其结果如下所示：
在这里插入图片描述

在这里插入图片描述

通过图片我们可以大致看出，若以单标签的方面来看的话，确实存在一定的不平衡问题。需要思考如何解决。

日报-0530

近日工作主要集中在代码编写，记录实验结果。从实验结果来看，使用k-means+smote的数据增强的效果不稳定，在某些数据集上效果好，在某些数据集上效果又不好，目前正在正在根据实验结果调整参数，寻找 k-means 中的 k 与数据集的关系。
附代码截图与实验结果截图（蓝色代表有提升，红色代表效果变差）：
在这里插入图片描述

在这里插入图片描述

小小码龙

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RongBYReport-20220530

日报-0523今日主要工作是对新想法的代码进行编写，即使用样本在邻居样本的投影值来体现样本的相对坐标，并以此作为损失函数，训练模型。但实验效果好像欠佳，不怎么好，下面附实验与代码截图，今日主要工作还包括训练模型、调参。实验过程：代码截图：...
复制链接

扫一扫

专栏目录