松间敲玉花-CSDN博客

原创 #AI夏令营 #Datawhale #夏令营 task3 对机器翻译模型改进的一些方法

总结task3代码相较于前task2，task1提升有很大，这就更有利于他预训练模式，但我在训练的过程中还引用了其他词典，虽然有提升，这种方法并不可取啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊，这也是为什么分数会提升较大的原因。在Transformer模型内部，可以通过增加位置编码来引入词序信息，或使用预训练的语言模型进行迁移学习，以提升模型的表达能力。上一期给出了优化思路，但是并没有进行具体的实践，恰巧task3整体的效果很不错，于是可以在他的基础上，进一步的优化和完善。这些指标可以全面反映模型的翻译质量。

2024-07-20 22:30:42 1436

原创 #AI夏令营 #Datawhale #夏令营 task2 对机器翻译模型改进的一些思路

Transformer模型优化：对于基于Transformer的模型，可以优化注意力机制，如引入稀疏注意力（如Longformer、BigBird等）或局部注意力，减少计算量。以上只是一些想法雏形，只含盖一小部分，在整个task2整体代码，相较于task1，虽然有优化，实际提升却很少，特别是中间还会出现很多数据丢失问题，说明还要从其他方面下手。多阶段训练：将训练过程分为预训练、微调等多个阶段，先在大规模通用数据集上进行预训练，然后在特定领域数据集上进行微调，提高模型在特定领域的翻译质量。

2024-07-17 19:03:24 904

原创 #AI夏令营 #Datawhale #夏令营 task1 对机器翻译模型代码优化的建议

优化主要分为3个方向：数据清洗、模型调优和评估，这三者是升机器翻译模型性能的关键。通过系统化的周期性数据清洗、模型调优和评估，能够不断提升机器翻译模型的翻译效果和准确性。3. 术语一致性：使用术语词典替换训练数据中的术语，确保术语翻译的一致性。反馈循环：根据评估和反馈结果，不断优化数据预处理、模型训练和调优策略。反馈迭代：根据评估结果，调整模型参数和训练数据，进行迭代训练。3. 使用预训练模型：利用预训练的语言模型进行迁移学习。定期更新数据：持续收集和清洗新的训练数据，更新术语词典。

2024-07-14 15:36:42 523

原创 #AI夏令营 #Datawhale #夏令营分子Ai预测 task4 关于一些代码的优化

6. 将每个模型在验证集上的预测结果加权平均得到最终的oof（out of fold）预测结果，将每个模型在测试集上的预测结果加权平均得到最终的测试集预测结果。最后，将预测结果保存为submit.csv文件，包括'test'中的'uuid'列和预测的'Label'列，并保存到本地。9. 最后，将三个模型的测试集预测结果进行简单的平均融合，得到最终的预测结果final_test。5. 对于每个模型，使用相应的参数进行训练，并获取在验证集上的预测结果和在测试集上的预测结果。

2024-07-06 20:50:06 466

原创 #AI夏令营 #Datawhale #夏令营分子Ai预测笔记task3代码优化建议

更精细的编码：对于类别型特征，可以尝试使用目标编码（Target Encoding）或M-Estimate Encoding等更复杂的编码方式，这些方式通常比简单的标签编码更有效。增加化学特征：除了使用TF-IDF处理SMILES字符串外，可以考虑使用RDKit库中的其他化学描述符（如分子量、氢键受体/给体数、logP等）作为额外的特征。更复杂的缺失值填充：对于缺失值，除了直接删除外，可以尝试使用均值、中位数、众数或基于模型的预测值进行填充。1.2 类别型特征处理。2. 模型选择与调优。

2024-07-04 20:48:27 522

原创 #AI夏令营 #Datawhale #夏令营分子Ai预测笔记task1

然后，通过模型的 fit 方法对训练集进行训练，输出训练和验证集的 AUC 评估指标，以监控模型在训练和验证集上的性能。首先，根据数据中的列名是否为 "test"，将数据分为训练集和测试集，并分别存储为 train_df 和 test_df。首先，代码开始导入必要的库和模块，包括 numpy、pandas、sklearn 中的 model_selection 模块和 metrics 模块，以及 CatBoost 库。首先根据数据的特征列和标签列，选择用于训练的特征，构建训练集和测试集的特征数据。

2024-07-03 21:12:39 808

原创 #AI夏令营 #Datawhale #夏令营分子Ai预测赛笔记task2

处理对象类型：在3.2步骤中，检查了训练集或测试集中的列是否为对象类型（通常表示分类数据）。更好的方法可能是使用独热编码、标签编码或目标编码，具体取决于分类特征的基数。特征工程：在3.1步骤中，从训练数据中删除了两列（'DC50 (nM)' 和 'Dmax (%)'），因为测试数据中没有它们。模型训练：在第4步中，使用训练数据（不包括前两列，可能是ID或非特征列）来拟合LightGBM分类器。分类编码：对于分类变量的编码，请考虑使用更复杂的方法，例如对低基数特征使用独热编码，或对高基数特征使用目标编码。

2024-07-03 21:05:28 363

2401_84247776的博客