3月4日工作记录

周末总结

周末花6.5k的4060ti主机到家了,配好了和女朋友一起玩了两天帕鲁,真好玩!
玩完开始上班!

今天,上午先看三篇paper,然后下午继续1日计划的工作

文章阅读

文章一:SciGLM: Training Scientific Language Models with Self-Reflective Instruction Annotation and Tuning

https://github.com/THUDM/SciGLM

通过自动纠错生成SciInstruct数据集,在SciInstruct数据集上训练ChatGLM得到优于baseline(ChatGLM)的模型。
在这里插入图片描述

  • “从互联网上获得的用于科学问题的指令数据的规模远小于其他任务。科学内容通常需要更高级别的专业知识才能创建,且大多数高质量信息经常受到知识产权的保护。我们能合法访问的大多数数据只包含问题-答案(QA)对,而没有详细的思考链条推理步骤。然而,仅仅训练大型语言模型(LLMs)使用QA对会导致非常糟糕的结果,甚至损害它们的通用语言能力。为了获得高质量的推理步骤作为指令(I),并创建问题-指令-答案(QIA)对,我们提出了一个自我反思的指令标注框架,要求LLM自主地标注、评价和修正推理步骤,几乎不需要人为干预。具体来说,LLM首先尝试仅根据问题(Q)生成推理步骤和答案;然后,对于那些答案预测错误的输出,我们要求LLM自身识别错误类型,基于此来解决错误并修正输出。最后,我们提供给LLM正确的答案,以完成它们的标注指令。这样一个自我反思的标注框架完全利用AI而非人类来收集指令,同时通过仔细的答案检查和LLM自我反思,保证质量并解决现有LL在这里插入图片描述
    M的潜在错误。”

    在这里插入图片描述

  • 由光学字符识别(OCR)提取的真实数据和由自反射框架生成的指令仍然可能包含错误。因此,对未细化的数据进行处理,获得高质量的数据,是提高模型性能的关键。**为了创建高质量的指令并过滤掉噪声数据,我们选择特定的标准问题和答案作为正样本,并使用llm生成相应的负样本。然后可以利用这些样本来训练数据分类器。在整合自我反思标注产生的问题和答案并进行过滤后,我们构建了scidirective,一个包含科学信息的综合数据集,用于微调。**在这项工作中,我们选择双语ChatGLM (Du et al., 2022;Zeng et al., 2022)系列模型作为主干。ChatGLM系列模型是一个开源的对话预训练模型,具有流畅的对话和低部署障碍。通过在scidirective上对ChatGLM系列模型进行微调,得到SciGLM模型。

文章二:LlaSMol: Advancing LLMs for Chemistry with SMolInstruct

https://github.com/OSU-NLP-Group/LLM4Chem
收集和制造了一个总大小3M的指令微调数据集。在开源模型中测试结果是Mistral基座模型科学理解能力最强,所以用Mistral作为基座。

在这里插入图片描述

文章三:ChemLLM: A Chemical Large Language Model

将结构化科学内容转为更贴近LLM-Chat的corpora以避免对预训练大模型能力的破坏。
在这里插入图片描述
主要在name conversion, molecular caption, and reaction prediction三个方面进行测试。从这个表格结果来看,微调模型和GPT4的差距集中体现在反应预测上。

代码任务

  • 7
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值