近红外光谱(NIR)是干什么的?
简单的来说就是一个仪器,你拿样本过来一照之后就有一个特别的光谱图出来。近红外光谱不仅仅能反映样本的分子构造,还可以反应出一些分子间相互作用等等的特征。因此可以拿来有一些别的玩法比如照一下之后可以无损的检测橘子的甜度等等。然后此外NIR的优点就是不需要预备处理就拿了样本照就行了,结果也出的很快,总之是非常的方便。
一些想法
在自动化的实验室里面(Self-driving laboratory)我觉得NIR应该是一个不可缺少的部分。通过建立QSAR/QSPR模型和in silico design设计出了新的候补物质之后,可以把比较好的候补物质丢给机器人让它去合成。合成出来之后在批量化生产的预备阶段弄一台NIR可以对合成产物的品质进行把控,同时应该还有利于去进一步的分析和改进工艺。
近红外光谱数据
先来看看数据集长什么样子的。
import urllib.request
import pandas as pd
import numpy as np
url = 'https://raw.githubusercontent.com/onecoinbuybus/Database_chemoinformatics/master/shootout_2012_full_scale.csv'
urllib.request.urlretrieve(url, 'shootout_2012_full_scale.csv')
data = pd.read_csv('shootout_2012_full_scale.csv', sep=',', header=0,index_col=0)
data.head()
这里一共有67个样本。根据不同的波长范围,划分成373个部分。