今天了解了Datawhale夏令营,然后还简单操作了一下ModelScope的Notebook,跟着教程将task1的代码跑通了,之前并没有很了解机器学习中的各种优化方法,虽然听说过决策树、随机森林之类的,但是仅仅看过部分理论知识,实操也只是跑通了代码,所以我对它的实际运用基本完全不了解,今天才知道它还可以用到化学反应产率预测中来,也是让我长了长见识叭。这个代码是怎样将一串串普通化学数据转化成可以学习、优化的数据的部分,我没看怎么懂,希望讲解代码的时候能多注意注意,因为我觉得优化方法就是那么些,最重要的还是数据的转换,或者说怎么去设计这个算法。
我对原始数据的转化的理解是,将化学反应以特定的形式写出来,然后再将其转化为一个个化学方程向量,因为每个反应物,溶解剂,催化剂等等与化学方程式有关的量,均为特定且唯一的量,所以将其转化为向量就是一个有效建模的过程,然后也更加方便了机器学习的数据处理,使其能更好地放入模型中进行训练。然后对随机森林的一些参数的理解,树的深度就是迭代次数,这个和模型有关,如果模型效果不佳,那无论迭代多少次都是没用的,而且迭代次数太多会大大增加计算机的计算量,耗费资源,树的数量不能太多,否则会过拟合,但是这次用了50棵树,似乎也没发生过拟合,这个调参还是得多了解,多实践。