1. 比赛概览分析
1.1 标签格式介绍
上面的字符串是 系统给的标签,需要进行分词进行打标签,即形成字典的形式,每个原子以及数量形成dict
挑战1:特征图太小,会损失很多细节信息,如右下角图像;如果太大,则会占用很大的硬件资源
挑战2:多大的输入尺寸是最好的
尺寸分布如下图
训练集包含的分子如下图所示
数据集中加入了噪声和高斯噪声,如小黑点,断断续续的线,高斯模糊(可使用简单的方式将图像变得清晰)
1.2 评价指标
编辑距离:将字符串转化为目标字符串使用的步数
1.3 训练
2080ti训练一个epoch需要12个小时,需要训练5天左右;1080ti的时长需要乘1.5
2. Baseline
特征提取网络越强,越利于lstm的训练,好的特征提取网络比如efficientNet
图中使用的是resnet26d
data$ tree . -L 2
.
├── bms-molecular-translation
│ ├── df_test.csv
│ ├── df_train.csv
│ ├── sample_submission.csv
│ ├── test
│ ├── train
│ └── train_labels.csv
├── df_test.pkl
├── df_train0.pkl
├── df_valid0.pkl
├── test_orientation.csv
└── tokenizer.stoi.pickle