摘要:
数据挖掘使药物发现、金融、医药和市场营销等领域发生了革命性的变化,并有可能同样地推进材料科学。在这篇文章中,我们描述了基于模拟的材料数据库、开源软件工具和机器学习算法的进展,这些进展正在为材料信息学创造新的机会。讨论了数据分析、聚类、线性模型、核岭回归、基于树的回归和推荐引擎等数据挖掘技术。我们介绍了这些技术在几个材料的应用领域,包括化合物预测,锂离子电池设计,压电材料,光催化剂和热电材料。最后,我们展示了新的数据和工具如何比以往任何时候都更容易和更容易地进行数据挖掘,通过使用2500多个化合物的数据学习材料工程数据库中化合物的价带和导带特征的新分析。
背景:
材料科学传统上被驱动了科学直觉,其次是实验研究。在近年来,理论和计算已经提供了一种用于物料属性预测的二级渠道和设计。材料的几个成功例子在计算机中设计并且然后在实验室中实现,现在已经建立了这样的方法作为新的路线,用于材料发现和优化。基于统计分析和机器的计算方法接近成熟、新的和互补的技术学习准备变革材料科学。
材料信息学这一术语的现代使用可追溯到十年前,对化学和材料科学采用信息学方法的历史与周期表一样古老。当门捷列夫将元素按其性质组合在一起时,电子尚未被发现,支持化学的电子构型和量子力学原理还需要几十年的时间。然而,门捷列夫的方法不仅导致了一种有用的分类,而且还可以作出预测:周期表中缺少的位置表明了后来被实验证实的潜在的新元素。门捷列夫还能发现当时原子量数据中的不准确之处。今天,在数据中寻找模式仍然是材料信息学的目标,尽管自从门捷列夫的工作以来,这些工具已经有了很大的发展。
虽然材料信息学方法仍然在它们中,与其他领域相比,幼儿期的进步过去十年中的材料数据库和软件迅速地获得地面。在本文中,我们讨论了最近的一些问题。材料信息学的发展,集中集中具体地讲,在连接材料的晶体结构时,以及它的组成与它的特性(和忽略,实例、微观结构和处理)。首先,我们提供了一个基于采矿的经典研究的简要历史。晶体学数据库。接下来,我们描述了最近的介绍基于计算的数据库及其对领域的潜在影响,随后讨论了现代材料的技术和说明性实例信息学。最后,我们提出了一种新的材料信息学研究,完全是基于公开的。数据集和工具,预测价态和新材料的导带特征。我们注意到虽然这次审查主要集中在定期审议中固体、分子系统也得到了广泛的应用,通过数据挖掘方法研究。
数据挖掘的早期实例晶体学数据库
在材料科学中,最早也是至今仍是最系统、最有组织的数据集是以结晶学数据为基础的。观察到的化合物的晶体结构可在数据库中获得,如无机晶体数据库(ICSD)、剑桥结构数据库和Pauling文件。从这些数据库中可获得成千上万种无机化合物的单位细胞、原子位置和对称性的信息。
新资源:计算材料数据存储库和开放软件的出现
虽然可以单独使用晶体结构进行数据挖掘,但大多数信息学研究还需要对材料性质进行测量。虽然现在有许多关于实验材料特性的数据库,但从这些资源中提取大规模的结构-属性关系是很困难的。计算数据库,虽然也有许多重要的限制,可能能够补充实验数据库的能力,并促进一种信息学风格的材料设计方法。
实验材料数据库
一类实验材料数据库是之前提到的晶体学结构存储库,包括ICSD、Pauling文件、CRYSTMET和Pearson晶体数据。GLassert进行了总结。材料属性数据库可用。其中最大的是来自Springer的数据库集,包括全面的数据库Landolt-BingRNsteinDatabaseE.大多数材料属性信息仍然分散在多个中资源,包括Factsage数据库,国家标准和技术数据库,MATWeb,MATNAVI,出版物例如库巴切夫斯基表和三元合金相图手册,我们注意到 Citrine信息学(http://www.citrine.io)是一个商业试图集中从不同来源收集的信息的实体(两个实验和计算)。这些不同的数据源历来都是经过专家管理和验证的,并作为材料研究界的重要、可信赖的资源。虽然在这些数据库上执行数据挖掘当然是可能的,但限制包括完整性和编程访问。就完整性而言,许多材料的性质(如形成能、带隙和弹性张量)只对已知晶体结构的一小部分进行了测量。尤其缺乏负面结果的数据,包括合成尝试失败和非特殊材料性能测量。即使化合物的性质是可用的,它们往往只与一种成分相关联,并且缺乏对所测量材料的严格描述(晶体结构、微观结构、掺杂水平等)。由于缺乏有关输入材料的信息,因此开发模型具有很大的挑战性。最后,在数据访问方面,大多数数据库只能通过为“单一查找”而设计的机制访问,而不能对数据库的大部分进行系统的数据挖掘。因此,还有其他类型的数据库可以帮助弥补实验记录中的空白。
计算材料数据库
近年来,产生材料的能力使用系统高吞吐量计算的数据(典型地基于密度泛函理论或DFT,求解Schrininger方程的方法创造了新的、高效的生产机会用于数据挖掘的高质量数据库。这些计算驱动的数据库通常利用来自实验数据库的晶体结构信息,为提取提供强大的手段迄今为止无法获得的模式和相关性数据集。作为一个例子,全弹性张量具有:仅测量约150个不同化合物,但最近的高通量计算研究总结了超过1000的这一数量材料。
这样的计算导出的数据库的示例包括材料项目,AFLIBLIB,Open Quantum Materials Database,哈佛清洁能源项目,电子结构项目,NOMAD、NrelmatDB和计算材料重新定位。这些数据库中的一些可以相当广泛;例如,材料项目今天包含超过60,000个化合物的性能数据,并且包括许多不同的特性,以及AFLIB包括超过60,000个条目。然而,更有重点的努力也在激增,其中包括:Catapp,用于催化,PhononDB,用于声子,用于热电、和Ests的TENDESIGLAB物理软件的验证和确认。在一些情况下在这种情况下,这些努力之间的分离是明确的。为了例如,v向小分子,而AFLIB目标无机化合物。在其它情况下,例如,材料项目,AFLIB,和开放式量子材料数据库,相当大的重叠在预期范围内。即使在后一种情况下,用户也可以仍可从多个数据库中受益,例如,以验证结果或其首选数据库的“填补缺口”。不幸的是目前没有搜索引擎或类似的工具来促进跨数据库的搜索(例如,Chemspider的精神中的某事物)。这可能部分原因是目前的访问困难以编程方式存储在这些资源中的许多资源中,在SEC中讨论。二.C.概述和比较这些不同的努力可以在最近的审查中找到通过线路。
基于模拟的数据的兴起的一个主要因素是软件库的可用性,这些软件库将大规模的数据生成和数据挖掘引入了更多的研究小组。实例包括pymatgen(物料分析、绘图和I/O到DFT软件)、ASE(结构操作和DFT计算器接口)、AFLOW (高吞吐量DFT框架)、AiiDA (用于高吞吐量DFT的工作流管理)和FireWorks (用于高吞吐量计算的通用工作流软件)。这些码基,以及理论技术的不断提高,强大而强大的DFT软件,以及计算能力的指数增长,都有可能使基于仿真的数据集在未来变得更有价值和更普遍。
编程数据访问
从数据库中下载大型数据集的一种有效方法数据资源(无论是实验还是计算)执行材料信息学是必需的。有许多方法可以对数据进行曝光,包括直接下载原始或已处理的数据集。更现代的技术来揭露数据资源是使用REST创建应用程序编程接口的原理(API)到数据库该方法是首创的计算机科学共同体并被介绍了材料世界通过材料API(MAPI)在“材料”项目中。到目前为止,MAPI已服务超过1500万件材料数据超过300件不同的用户,启用新类型的应用程序和分析。
在RESTful设计中,每个对象都表示为唯一的资源标识符(URI),可以使用超文本传输协议(HTTP)以统一的方式进行查询。每个文档或对象(例如计算任务、晶体结构或材料属性)都由一个惟一的URI(参见图2中的示例)和一个可以作用于该对象的HTTP动词来表示。在大多数情况下,此操作返回表示对象的结构化数据,例如,以javascript对象表示法(JSON)表示。
RESTful接口的一些优点包括:
(i)抽象:RESTful接口使用多种编程语言可以访问的通用协议。它们隐藏底层数据存储实现的详细信息(即数据是否存储在SQL或NoSQL数据库中),方法是公开一组干净和一致的操作和查询,这些操作和查询可以针对数据执行。
(ii)灵活性:因为它们抽象出实现细节,RESTful接口对于底层基础结构的变化是灵活的。它们还允许在具有不同内部架构的几个数据库之间在一致的API下进行联合,这样用户原则上可以为不同的资源编写相同的代码。在建立不同数据源的通用访问模式方面,这种灵活性可能变得特别重要。
(iii)POWER:高层接口可以构建在RESTfulAPI之上,这样就可以以面向对象的方式访问和操作场外数据资源。例如,pymatgen53代码库中提供了MAPI 59的高级接口,允许用户使用内置函数获得属性,如晶体结构或电子带结构,而不是显式地发出HTTP请求。
(iv)最新:数据集可能变得陈旧和过时.RESTful接口允许随时公开最新版本的数据和查询,而不需要用户操作。用户总是可以选择保留数据,URI方案也可以用于保留数据的多个版本。然而,RESTfulAPI使获取给定分析的最新相关数据变得非常简单,而无需重新下载整个数据库。虽然REST接口对于初始用户来说是很棘手的,但是一个设计良好的REST接口可以提高数据的可发现性,并使最终用户不必学习特定数据库的实现细节,而可以通过一个干净和一致的api进行数据分析。
现代数据挖掘技术和实施例
随着不断扩展的材料数据集的生成正在进行中,主要的剩余挑战是开发描述符(有时称为“功能”或)材料的“预测因子”,并通过适当的数据挖掘算法将它们与测量的特性(有时称为“输出”或“答复”)相关。在过去的几十年中,已经开发了许多新的方法,使用精细的数学算法从大型数据集提取知识,从而导致机器学习或数据中断的新领域。在许多情况下,算法可以以“现成的架子”的方式应用于材料问题;在其他情况下,材料科学家自己开发了新的数据分析方法,这些方法被调谐到它们的域上.
A 材料结构的描述符和属性
由于数据挖掘是在数字数据结构上进行的,因此材料科学家必须首先以一种能够在数据中找到关系的格式对材料进行编码。虽然开发了几种数据格式来描述晶体材料(例如CIF文件格式),但由于以下原因,这些格式不适合作为数据挖掘描述符。为晶体固体开发健壮的描述符的问题仍然是一项具有挑战性的任务;在这里,我们识别并概括了四种特征良好描述符的特性:
(I)描述符应当是***有意义的***,因此描述符和答复之间的关系不应过于复杂。例如,虽然晶体结构的晶格矢量和原子位置原则上决定其性质,但这种编码涉及输入和输出之间非常复杂的关系(即薛定谔方程)。特别是,这种表示法中隐含的复杂而重要的三维边界条件没有被今天的数据挖掘技术所捕捉。更好的描述符与输出之间的关系更简单,最好是在数据挖掘算法能够合理发现的复杂空间内(根据Ghiringhelli等人概述的类似原则)
(ii)更好的描述符***是通用的***,因此它们可以应用于任何现有的或假设的材料。虽然在有限的化学空间中进行分析时,这并不是绝对必要的,但它对于建立连接化学和结构的通用模型是有用的。
(iii)更好的描述符***是可逆的***,因此原则上可以将描述符清单倒转到对材料的描述中。对于一个成功的模型来说,这并不是绝对必要的,但它将在描述符空间而不是在材料空间中实现更有效的“逆设计”。Ghiringhelli等人提出了这一条件的不那么严格的版本,他指出描述符应该独特地描述一种材料。
(iv)描述符***应易于获得***,即比所预测的目标属性更容易获得。
任何一套描述符都不太可能在所有可能的成分、晶体结构和目标输出特性的空间内满足这类标准。相反,描述符可能需要根据应用程序定制,正如Yang等人所演示的那样。拓扑绝缘子。
B 探索性数据分析和统计
一旦确定描述符和目标输出,必须选择适当的数据挖掘方案,联系这些数量。第一步是绘制视觉相关性和应用标准统计工具(如方差分析或ANOVA,方法)以更好了解数据集并进行基本预测。这阶段通常被称为探索性数据分析。为了例如,一个大的从头算数据集瞄准了新型锂离子阴极材料的发现。该数据集包括数以万计的材料,广泛地分析了趋势、限制和机会跨越阴极化学物。例如,用于此的统计为磷酸盐材料编译数据集,该数据集对电池社区造成了极大的兴趣以实现LiFePO4作为锂离子阴极的成功。使用更多超过4000个含锂的磷酸盐化合物,在任何情况下,所有潜在氧化还原偶联物的预期电压磷酸盐阴极材料可衍生并合理化。此外,还提出了若干假设:基于相关因素的文献和基于有限数据的研究确定电压(如P/O比,编号磷酸盐基团和氧化还原金属之间的连接,以及P-O键长度)得到确认或挑战。
视觉探索也可以揭示属性之间的关系。上面提到的同一项目未发现计算平均值之间的相关性O2的电压和热力学化学电势(转化为用于氧气释放的温度)用于阴极化合物(图14)。该分析确定更高的电压化合物通常存在较大的风险用于热不稳定性。虽然提出了一个类似的想法,但高通量计算数据的出现在很大程度上测试了该想法,并且进一步揭示了在行为上的基于化学的差异。