1.Q: 关于模型没问题,损失正常下降,降到一定就收敛了,但是精度达不到预期且损失过大。
A: 1. 查数据分布,很可能是样本不均衡带来的问题。
2. 有可能模型欠拟合,可以考虑换更大的模型。
- Q: 如果两个显卡剩下的显存,可以将这些显存加起来跑一个模型吗?就是占用两块剩余的显存
A: 可以具体操作如下:
os.environ[“CUDA_VISIBLE_DEVICES”] = “0,1”
DistributedDataParallel - Q: 关于听同事讲解论文DeVLBert: Learning Deconfounded Visio-Linguistic Representations
得到的启发
Figure 1: An illustration of the transition from traditional association-based learning to causal interventionbased learning. The critical difference is that the intervention mitigates the spurious correlation by blocking the backdoor path 𝑍 → 𝑋 and thus controlling the condition �
改论文提出:当有一件乐器在的时候,T-shirt在的概率为5.98%;但是事实是他俩关系概率不大,经过去干扰因子的加入,把他俩的相关性降到了3.09%。这个思想很可能用的到,因为你在做一件任务时候,很可能就会用到关联信息,但是关联信息的关联度你要加以衡量。
本文直接切断,其实有有点类似硬softmax,可能会丢失真的相关性,所以后续改进可以朝着软softMax角度想,建立一个自适应的相关性,既不过分也不丢信息。
- 今天听同事回报文章,不得感概他的ppt做的真的好,真的像人家说得,ppt做的好占很大优势。学习了。
ppt对比可以用颜色底纹加以区分
ppt内容渐进变化,可以复制一份,然后更改下一部分的内容,且可以留住大的框架,让听众更加容易理解。
分两张或多张ppt展示,没毕业加动作,显得浮夸花哨。
像这样两边对比明显,突出重点