来源:ScienceAI
作者:UNSW AI4Science团队
编辑:ScienceAI
科学文献蕴含了未来应用的宝贵信息,然而,手动分析受限于规模和学科限制,面临挑战。对于这一挑战的普遍解决方法是自然语言处理(NLP)技术,比如信息检索(information retrieval)。
但是,现有的自动化系统往往只提供基于统计的浅层信息,缺乏可追溯的深层见解,无法提供高质量且可靠的分析。如何高效整合实验科学经验,加速材料合成路径预测呢?
为此,澳大利亚新南威尔士大学的 Bram Hoex 教授 UNSW AI4Science 团队, GreenDynamic 律动与香港城市大学揭春雨教授团队历时三年,首次提出「科学情感网络」(Scientific Sentiment Network,SSNet)。该模型能够基于情感对科学经验进行量化,同时提取材料结构及合成参数等信息,从而指导材料合成和预测,未卜先知。
数据显示,该模型不仅超越了现有的热电材料预测算法模型准确度,且在千万种材料中预测出适合原子层沉积法(ALD)合成的纳米材料,成功得到实验室独立验证。
继该成果技术核心于去年NeurIPS AI4Science会议上以大会海报的形式亮相后,UNSW和律动团队近日将详细技术细节和数据基础发表在美国化学学会(ACS)出版的化学信息学领域国际顶级期刊《Journal of Chemical Information and Modeling(JCIM,化学信息与建模)》特刊《Machine Learning in Bio-Cheminformatics》上,并入选期刊封面,以期将AI技术赋能及加速纳米材料合成的整体发展。
本文地址:https://pubs.acs.org/doi/10.1021/acs.jcim.3c00746
科学文献数量攀升,「观点挖掘」解高效信息处理之急
科学文献是科研领域传播最新进展的关键途径,然而随着论文数量攀升,有效筛选和获取信息变得愈发耗时。
先前的研究多聚焦于利用自然语言处理技术从文献中提取浅层信息,如材料名称和合成配方。然而,尚需进一步探索如何从文本中提取更高级的信息以进行预测,并将已发表文献整合总结,为研究提供更多相关信息。
近期,一些研究者尝试使用词嵌入(word embeddings)或基于图机器学习(graph-based machine learning)来预测适合某些应用的材料。这种方法可以将材料科学数据有效地编码为高维数字表示。然而,这种编码操作很难为输出结果提供实证支持。
「观点挖掘」(opinion mining)是一种关键的NLP技术,专注于分析人们对实体(如产品和事件)的情感、评价和态度。知识挖掘借助的NER、文本分类、文本摘要和可视化,有助于发现文本中的知识,高效经济,节省人力。
现有研究主要采用词典和语料库,并结合了情感词和否定来计算情感得分,包括传统的机器学习方法(如SVM、朴素贝叶斯和逻辑回归)以及最新的深度学习技术(如CNN、RNN和Transformers)。Twitter数据显示,深度学习优于传统机器学习方法,如朴素贝叶斯和SVM。
观点挖掘广泛应用于不同领域,包括产品评论分类、社交媒体文本分析等。尽管已应用于科学文献,但多数关注引文而非文章内容。
图:Amazon上的产品评论。
现有研究大多致力于帮助研究者识别所需文献或分析作者行为,但相关具体产业化应用迄今尚未充分报道。
科学情感网络(SSNet)——专为科研论文定制
研究人员运用了观点挖掘技术来分析纳米材料相关出版物的正文内容,并进行了知识挖掘。我们将材料知识整合到文本表征中,构建了一个观点数据集,并对深度学习模型进行了分层训练,这一模型被称为科学情感网络(SSNet)。
SSNet包含四个主要模块:文本准备、观点提取、观点分类和信息分析。
在文本准备模块,研究人员从77篇全文和56,000多篇摘要中生成了一个涵盖多个主题的观点数据集,基于此训练深度学习模型,在观点提取和分类模块中取得了出色的表现,准确率分别达到94%和92%。信息分析模块则利用NER和可视化技术从出版物中挖掘信息,实现了知识挖掘的目标。
为了测试信息分析模块的效果,研究人员设计了两个材料预测实验。第一个实验关注热电材料的观点,结果显示将实验结果与最大功率因数预测的相关性从59%提高到了70%。第二个实验专注于原子层沉积(ALD)元素及其组合,利用先前的元素分布来确定最佳组合。
为了提高预测准确度,研究人员训练了长短期记忆(LSTM)模型,其准确率达到了68%,并对顶级氧化候选元素进行了分析。研究结果显示,研究人员的系统可以从多个方面评估材料的应用适用性,包括制造性能和自然属性。这项工作为知识的吸收和整合提供了新视角,为研究人员提供了可靠的预测,帮助他们做出最具前景的研发决策。
根据Liu(2015)的定义,常规观点由五个基本要素组成:实体名称、方面、情感、观点持有者和时间。情感通常分为正面、负面和中性,每个类别有不同的强度。这五个要素清晰地描述了情感持有者在特定时间对特定实体的特定方面的情感,将非结构化文本转换为结构化形式,这是观点挖掘的核心。
图1:产品评论和科学文献中的观点对比。
研究人员还发现,有关纳米材料的观点内容复杂广泛,涵盖多达数个类别类:a) 材料属性;b) 技术、方法和应用;c) 实验结果;d) 社会、经济或环境影响;e) 政策和管理。
因此,研究人员调整了识别常规观点五个组成部分的流程。研究人员从搜索关键词(例如「thermoelectric」,热电)找到的出版物中提取观点句子。研究人员将搜索关键词视为一个实体。考虑到材料、方法和应用的多样性,研究人员将方面识别放在次要位置,并建议根据研究目的使用“方面”时保持灵活性。
研究人员还采用规范化的元素名称或材料名称作为方面,以满足材料研究的需要。为了识别问题并追踪进展,研究人员将提取的观点分为挑战(负面)和机遇(正面)两类,作为情感。至于观点持有者和时间,则可从出版物的元数据中获取,分别提供了作者姓名和出版年份。
图2清楚展示了四个模块的相互作用。前三个模块对选定的出版物进行预处理和注释,为模型训练提供数据以完成观点提取和分类任务。
最后一个模块从这些出版物中提取观点句,并通过经过训练的模型将其细分为机遇和挑战,以进行信息分析。
图2:SSNet训练和下游任务概览。
SSNet的四个模块
文本准备模块(i)通过检索数据库(如 Web of Science)中的关键词,搜集特定主题的出版物(包括 PDF、JSON 和 HTML 格式)。这些出版物中提取的纯文本经过分句和标记处理后,被传送到后续的两个模块。举例来说,若被处理的文本包含以下内容:
Lithium transition metal oxides are prevalent cathode materials currently, but they face great challenges due to unsatisfactory energy density, chemical/electrochemical instability, and elemental scarcity concerns……This synergistic control of nano-/macro-structures is a promising concept for enhancing battery performance and its cycle life. Finally, a rational method of surface modification is proposed for use in cathode materials.
经过模块(i)-(iii)处理后,文本将被处理并标注为类似内容:
['Lithium', 'transition', 'metal', 'oxides', 'are', 'prevalent', 'cathode', 'materials', 'currently', ',', 'but', 'they', 'face', 'great', 'challenges', 'due', 'to', 'unsatisfactory', 'energy', 'density', ',', 'chemical/electrochemical', 'instability', ',', 'and', 'elemental', 'scarcity', 'concerns', '.'] 会被标记为“观点”(opinion)和“挑战”(challenge)
['This', 'synergistic', 'control', 'of', 'nano-/macro-structures', 'is', 'a', 'promising', 'concept', 'for', 'enhancing', 'battery', 'performance', 'and', 'its', 'cycle', 'life', '.'] 会被标记为“观点”(opinion)和“机遇”(opportunity)
['Finally', ',', 'a', 'rational', 'method', 'of', 'surface', 'modification', 'is', 'proposed', 'for', 'use', 'in', 'cathode', 'materials', '.'] 会被标注为“非观点“(non-opinion)
研究人员比较了基于词典的方法和深度学习模型在小型管理数据集上的性能,以选择适用于观点提取和分类的模型。卷积神经网络(CNN)和基于注意力的CNN(ABCNN)在这些任务中的表现优于其他模型,如图3所示。CNN的核心思想是:每个单元在一层中接收来自上一层邻近单元集的输入。
图3:CNN 结构的模型架构示意图。
以 n*k 表示的样本句子是CNN架构的示例。每个单词用 k 维向量表示,句子包含 n 个单词。卷积应用于单词滑动窗口生成特征图,经过最大池化后送入全连接层。SoftMax的输出代表「观点」和「非观点」。
CNN利用分层架构和注意力机制表现出色,帮助模型集中于关键信息,同时使用SMOTE技术来处理观点和非观点类别不平衡的情况,提高模型性能。
为了构建更大的注释数据集,研究人员用伪标签创建了一个约 22,000 个样本的混合主题数据集,并以 19:1 比例分为训练集和测试集。在这个更大规模的数据集上,研究人员训练了最终模型。
CNN 模型用于观点提取,ABCNN-SMOTE 模型用于舆情分类,它们的准确率分别达到了 94% 和 92%。为了适应不同的需求,比如按比例检索输入句子的观点,研究人员还增加了语料库对比作为可选功能。
在信息分析的最后阶段(模块iv),SSNet通过经过训练的信息分析模型,自动从输入的科学文本中提取观点。
针对每个机遇或挑战句,研究人员使用ChemDataExtractor3来自动辨别作为观点方面的材料名称。如果无法辨别材料名称,系统将返回源信息,并提取与句子最相关的材料名称。每种观点都至少与一种材料相关联,研究人员可以通过详细的参考资料和时间序列对材料的态度进行分析。举例来说,以LaNiO3为例,研究人员可以以材料为核心,分析每年的挑战和机遇情况(如图4所示)。
图4:应用实例。
SSNet的性能:准确率高,训练和推断速度更快
研究人员倾向于使用轻型模型,相比流行的大型语言模型(LLM)如 BERT 和 GPT4。我们与 MatBERT 和 EnergyBERT (https://huggingface.co/UNSWMasterAI/EnergyBERT) 进行比较,发现在能源或材料科学领域文本上,我们的模型性能相媲美甚至优于经过预训练的 BERT,并且超过了未微调的 GPT-4。
SSNet、MatBERT 和 EnergyBERT 在特定领域术语和隐藏观点的句子上犯错较少,相较于 GPT-4 的严格标准,研究人员的模型更灵活。
此外,SSNet 不仅准确率高,训练和推断速度也更快,非常适合处理大规模科学文献库。
表1:SSNet与大语言模型(EnergyBert和GPT4)在观点提取和分类方面的性能比较。
研究人员的方法旨在与LLM无缝集成,以更好地筛选提取的数据。
这种整合允许研究人员将语料库中负面情绪较多的材料分配较低的置信度或权重,提高了数据的质量。这样优化后的数据能更有效地指导材料的设计或合成,促进科学发现。
SSNet推动热电材料发现
SSNet在推动热电材料的发现方面发挥了重要作用。
研究人员创建了基于情感比率的热电材料排名,并与实验测得的最大热电功率因数进行了比较。通过文献观点,成功优化了预测热电材料排名的模型,并发现与实验结果的相关性高达69%。
研究人员采用了两种方法更新排名:直接修改材料排名和基于监督学习算法的预测。结果显示这些方法的改进提高了模型的排名准确性。
此外,利用观点情感和出版年份,研究人员分析了材料在不同时期的情感变化,呈现出材料使用率和情感得分随时间的趋势。
图5:十大高频热电材料(1999-2021年)的情感热图可视化。
图6展示了情感得分热图和不同排名的对比,揭示了一些材料的实验表现与观点评价之间的差异。研究人员还通过钙钛矿太阳能电池领域的实例验证了这种方法的普适性。
图6:不同方法的排名比较。
如图,情感热图中,从 0 到 1 的刻度表示情感分数,其中 0 表示完全负面情感或完全没有观点,0.5表示中性,1 表示完全正面。另一图为热电材料最大功率因数预测排名比较。
SSNet揭开纳米材料薄膜沉积的神秘面纱:预测与发现
薄膜沉积是在基底上沉积一薄层材料的过程,是纳米材料合成的一种方法。
研究人员用SSNet评估了不同薄膜材料合成方法的可行性,分为两大类,ALD(原子沉积技术)和非ALD(比如化学沉积CVD, 旋涂等等),关注了过去几年的情感评价和相关材料的发展。研究人员使用SSNet进行观点挖掘,发现了特定材料情感评价的变化趋势,如锂元素(锂在 2018 年经历了突出的负面情绪)。我们的提出的观点挖掘激励研究人员在跨学科方案中探索潜在的解决方案。
图7:2014年、2018年和2021年ALD(前3位)和其他沉积方法(后3位)所用元素的情感热图。
图8:使用协同过滤(CF)和长短期记忆(LSTM)模型预测纳米材料合成方法的系统结构。
此外,研究人员对薄膜沉积进行了广泛研究,利用机器学习方法预测了ALD沉积的候选元素组合,展示了对于非ALD领域的发展潜力。LSTM模型与协同过滤(CF)方法相比,更准确地预测了2021年后可能出现的氧化物的合成。这种研究对于理解材料合成方法之间的复杂关系,并进行更准确的预测具有重要意义。下图为本文撰写时本研究形成的”观点”语料库中前十氧化物 CF 和 LSTM 预测列表。在本文发表时,LaPO4已经成功在挪威奥斯陆大学纳米实验室成功合成,进一步验证了SSNet的未卜先知的能力。
纳米材料观点挖掘系统及方法——总结与展望
材料出版物中的观点蕴含着有关纳米材料的宝贵信息。研究人员采用了科学文本中的常规观点挖掘理论,实现了一个可以对纳米材料文献中的观点进行提取和分类的系统——科学情感网络(SSNet)。
该系统专为科学出版物的正文而设计,而非引文或评论文本,可提供有关作者对纳米材料态度的句子级信息。每个被挖掘的观点都可以追溯到有出处的原始文章,而不是给出最终的排名或分数,这有助于将跨学科信息整合到定量分析中。
在训练过程中,研究人员通过数据扩增减轻了注释的负担,使个人也能胜任,解决了深度学习需要大量注释数据的普遍困扰。在材料预测实验中,研究人员应用了一个命名实体识别(NER)工具来利用材料名称等小信息单元。研究人员通过 LSTM 模型预测出哪些氧化物具有通过 ALD 合成的潜力,并提出了可靠的见解。这些氧化物主要应用于RAM、传感器和光伏领域。
与类似的材料出版物文本分类任务相比,研究人员的系统展示了一个更直接的端到端框架,具有更强大的语义能力和更高的可解释性。
在本研究的训练数据中,一个观点句子可能偶尔会包含多个命名实体,而这些实体所对应的态度各不相同,从而可能会导致观点被错误分类。
今后的工作将包括使用包含更多能源知识的预训练语言模型,以及包含更多具体材料名称的更细粒度的观点挖掘。
目前的观点挖掘是在句子层面上进行的,但研究人员发现有时存在多个材料名称和对应的不同观点。通过对子句进行预处理,并检测多观点出现时的触发信号(trigger),研究人员还可以实现更精细的观点挖掘。
为了提高纳米材料薄膜洞察机器学习模型的准确性,还可以将特定元素(如卤化物、环戊二烯)的可用反应物组和不同种类的反应物作为额外的相关参数。
此外,研究人员期待着将他们的系统扩展到更多依赖于科学文本中的观点挖掘或与之相关的应用中,如实时纳米技术观点搜索引擎。
关于GreenDynamics律动和UNSW AI4Science
GreenDynamics律动诚邀具有激情与潜力的实习生加入他们的的创新团队。作为澳大利亚悉尼新南威尔士大学孵化的AI4Material公司,律动专注于将材料发现的速度提升1000倍。
他们正在寻找三位AI研究员(实习生),地点可灵活安排(远程/香港/悉尼)。这个职位将让您深度参与律动和UNSW AI4Science团队合作的创新材料开发,与国际一流科研人员合作,探索先进技术,并获得成长和发展的机会。立即加入GreenDynamics律动,共同探索先进AI技术和材料科学的未来!
GreenDynamics 官网:https://www.greendynamics.com.au/
简历投递至:hr@greendynamics.com.au ,邮件标题为「姓名+AI Researcher(Intern)」
职位详细信息:https://www.yuque.com/sekeritas/gb5grg/cqhps8ivnqvfax87?singleDoc#%20%E3%80%8AAI%20Researcher%20(Intern)%E3%80%8B
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”