Datawhale AI夏令营——对第二届世界科学智能大赛物质科学赛道:催化反应产率预测初赛baseline文档的学习笔记

  • a75ac94ad96d4f69931e385dbf25815c.png

     

  • 什么是pandas环境依赖?

  • pandas 是基于NumPy 的一种工具,该工具是为解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。

  • 什么是Scikit-learn

  • Scikit-learn(以前称为scikits.learn,也称为sklearn)是针对Python 编程语言的免费软件机器学习库[1]。它具有各种分类,回归和聚类算法,包括支持向量机随机森林,梯度提升,k均值和DBSCAN,并且旨在与Python数值科学库NumPy和SciPy联合使用。

  • 什么是rdkit?

  •  RDKit是一款基于Python的开源化学信息学工具包,其核心为分子模型和算法。通过RDKit,用户可以轻松地进行分子的构建、修改、查询以及分子特征的提取等操作。此外,RDKit还提供了丰富的接口和工具,方便用户进行大规模的化合物数据处理和分析。 

b73c7ad98ce643b799d78d90b43f5892.png

  • 导入pickle库,用于对象的序列化(将Python对象转换为字节流)和反序列化(从字节流转换为Python对象)。在机器学习中常用于保存和加载训练好的模型或数据。
  • tqdm是一个快速、可扩展的进度条工具,用于在循环或迭代过程中显示进度条,提升用户体验。
  •  从sklearn库中的ensemble模块导入随机森林回归器。随机森林是一种集成学习方法,适用于回归和分类问题。
  • rdMolDescriptors包含了一些分子描述符的计算方法。
  • RDLogger用于控制rdkit的日志记录,通常在运行时可以禁用某些日志以减少输出。Chem模块提供了化学信息学的核心功能,包括分子的表示和操作。
  • 导入numpy库,并给其起了一个别名np。numpy是Python中用于科学计算的核心库,提供了高效的多维数组对象和数学函数。
  • RDLogger.DisableLog('rdApp.*'): 禁用rdkit的日志记录器(Logger),通常用于屏蔽一些不必要的输出信息,以提高程序的运行效率和简洁性。
  • 什么是随机森林?

  • 随机森林是集成学习中的Bagging(Bootstrap Aggregation)方法的一种实现,是由很多决策树作为基础估计器集成的一个同质估计器。
    各决策树之间没有关联,在用随机森林进行分类时,每个样本会被森林中的每一颗决策树进行判断和分类,每个决策树会得到一个分类结果,哪一个分类的结果最多(众数),就是随机森林的最终结果。

  • 学习参考:随机森林 Random Forest

  • 暂时还是不懂得怎么调节参数或者换模型来提高分数。但运行了几次之后分数有提高

 

 

  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值