Brand Content Discovery 实验记录

最新推荐文章于 2024-08-17 19:33:44 发布

薛定猫的谔w

最新推荐文章于 2024-08-17 19:33:44 发布

阅读量236

点赞数

分类专栏：品牌项目文章标签：神经网络深度学习

本文链接：https://blog.csdn.net/csdn_tclz/article/details/107751479

版权

在视频和文本模态数据下进行品牌内容学习的实验中，遇到训练问题，如模型学习率、batch_size、margin超参数、特征表示等。通过调整学习率、增大batch_size、改变模态融合方式及优化损失函数，改善了模型表现。最终，通过随机划分数据集解决了数据分布不一致的问题，测试集AUC提升至0.67。

摘要由CSDN通过智能技术生成

只使用视频模态、文本模态数据的情况下：

一、最开始融入品牌学习的模块后，实验结果很差（训练集上loss下降很慢，到某一个值后几乎不变化，模型没学到什么有用的表示，验证集/测试集AUC均0.48左右）。当时考虑可能是以下几个原因造成：
1、品牌表示学习原论文中使用的学习率是1，而视觉-文本网络初始学习率是1e-4。怀疑两个模型学习率上的gap导致没有办法同时学的很好？多次调整初始lr，设置lr随epoch衰减幅度，没效果。
2、batch_size过小导致在训练时陷入局部最优？调大batch_size（128->256），没效果。
3、三元组loss中超参数margin的设置不当，导致每个品牌学到的表示不具有鉴别性？调整后训练，没效果。
4、实验中对品牌表示学习网络存在问题，升维让品牌表示难以学习？去掉升维操作，没效果。
5、怀疑视觉、文本模态其中某一个特征对最终的数据特征表示形成干扰？或者两个模态特征融合的方式不对？
实验中增设允许数据最终表示只使用单模态、调整模态的最终维度再拼接（比如假设视觉、文本可能不是同等重要的，那么设置最终视觉特征dim-2048，压缩文本的表示为dim-512），感觉双模态融合的方式效果要好一些？（待补实验认证）
视觉/文本模态特征融合时，不做简单的拼接，而是再增加一个FC层，涨点3%左右，AUC到0.51，可见还是很弱。
二、

最低0.47元/天解锁文章

薛定猫的谔w

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Brand Content Discovery 实验记录

只使用视频模态、文本模态数据的情况下：一、最开始融入品牌学习的模块后，实验结果很差（训练集上loss下降很慢，到某一个值后几乎不变化，模型没学到什么有用的表示，验证集/测试集AUC均0.48左右）。当时考虑可能是以下几个原因造成：1、品牌表示学习原论文中使用的学习率是1，而视觉-文本网络初始学习率是1e-4。怀疑两个模型学习率上的gap导致没有办法同时学的很好？多次调整初始lr，设置lr随epoch衰减幅度，没效果。2、batch_size过小导致在训练时陷入局部最优？调大batch_size（128
复制链接

扫一扫

专栏目录