- 博客(2)
- 收藏
- 关注
原创 Baseline笔记2
在原有的Baseline上除了交叉验证,还有一种关键的优化方式,即特征工程。Smiles特征之外还有很多特征可以提取有价值的信息,比如InChI是由一系列部分组成,提供了关于分子结构的详细信息。比如特征优化 提取分子式 从InChI字符串中,我们可以看到分子式直接给出在/C47H61N7O6S部分。这意味着分子由47个碳原子、61个氢原子、7个氮原子、6个氧原子和1个硫原子组成;计算分子量 分子量可以通过将每种原子的原子质量乘以其数量然后相加得到。如碳(C)的原子质量约为12.01 g/mol。
2024-07-07 23:35:05
207
原创 Baseline笔记
首先,它接受一个pandas Series作为输入,获取Series中的唯一值列表,然后创建一个字典,将每个唯一值映射到一个整数,最后使用这个字典将原始Series中的每个值映射到相应的整数。TF-IDF计算:使用TfidfVectorizer从处理后的SMILES字符串创建TF-IDF特征矩阵,TF-IDF是一种词文本的统计学方法,用于统计词文本在文件中出现的频率,衡量该词条的重要程度。这是特征工程的一部分:这是为了便于下一步特征的提取,SMILES可以使用TF-IDF计算方法。
2024-07-05 00:16:06
880
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人