【东北大学大模型】TechGPT2.0大模型

最新推荐文章于 2025-01-13 10:00:00 发布

Python_金钱豹

最新推荐文章于 2025-01-13 10:00:00 发布

阅读量1.3k

点赞数 13

文章标签：人工智能科技 3d 知识图谱 gpt

本文链接：https://blog.csdn.net/Python_cocola/article/details/142769016

版权

东北大学TechGPT2.0大模型是东北大学计算机科学与工程学院的“东北大学知识图谱研究组”在TechGPT-1.0基础上发布的升级版大语言模型。

技术特点

继承与增强：TechGPT2.0在继承了TechGPT-1.0全部特性的同时，通过增加多领域、多任务的数据，展现出了更强的能力。新增了嵌套实体的抽取、幻觉回答、回答不可回答问题和回答长文本问题的能力，这些改进使得模型更适用于广泛的应用场景。

领域知识扩展：除了TechGPT-1.0所具备的计算机科学、材料、机械、冶金、金融和航空航天等十余种垂直专业领域能力外，TechGPT2.0还在医学、法律等领域文本处理上展现出优秀的能力。扩充了对地理地区、运输、组织、作品、生物、自然科学、天文对象、建筑等领域文本的处理能力。

性能优化：TechGPT2.0对部署的硬件要求更低，使用NVIDIA 4090单机单卡或昇腾910A单机单卡即可完成模型部署。采用了华为昇腾服务器和MindSpore框架进行训练，提高了计算能力和训练效率。

功能特点

医学领域：TechGPT2.0能够深刻理解医学文本，从疾病到药物，再到复杂的诊断信息，都能提供专业的分析，辅助医疗专业人员。

法律领域：通过精准的法律用语学习，TechGPT2.0能够有效解读法规和合同，提供深入的法律咨询，成为法律工作者的得力助手。

嵌套实体抽取：TechGPT2.0在处理文本时，能够更好地理解实体之间的复杂关系，无论是医学亚型还是药物剂量信息，都能精确捕捉。

幻觉、不可回答与长文本处理：TechGPT2.0在幻觉识别、不可回答问题处理以及长文本处理方面进行了强化，提升了模型的准确性和实用性。

《TECHGPT-2.0: A LARGE LANGUAGE MODEL PROJECT TO SOLVE THE TASK OF KNOWLEDGE GRAPH CONSTRUCTION》

全文摘要

本篇论文介绍了一个名为TechGPT-2.0的项目，旨在增强大型语言模型在知识图谱构建任务中的能力，包括命名实体识别和关系三元组提取等自然语言处理应用。该项目提供了两个7B大型语言模型权重和一个专门用于处理长文本的QLoRA权重，并且训练在华为Ascend服务器上进行。TechGPT-2.0继承了TechGPT-1.0的所有功能，具有强大的文本处理能力，特别是在医学和法律领域。此外，该模型还引入了新的能力，使其能够处理地理区域、交通运输、组织机构、文学作品、生物学、自然科学、天体物体和建筑等各种领域的文本。这些改进也增强了模型处理幻觉、无法回答的问题和长文本的能力。本文详细介绍了在华为Ascend服务器上的完整微调过程，包括对Ascend服务器调试、指令微调数据处理和模型训练的经验。

方法描述

本文介绍了TechGPT项目中的各种方面，包括模型配置、数据收集与处理的细节、在Ascend服务器上的调试经验以及从模型训练中获得的见解。其中，模型设置子部分详细阐述了在初步研究阶段选择模型时遇到的挑战。关于数据收集与处理，我们详细介绍了由400万条指令微调数据集构成的数据集组成、数据处理的复杂性和数据构建过程。在Shengteng服务器调试的部分，我们讨论了其使用方式并强调了遇到的挑战。在模型训练经验领域，我们探讨了数据对训练的影响等问题，并提出了处理长文本相关问题的解决方案。

方法改进

本文提出的TechGPT项目采用了先进的自然语言处理技术，通过优化模型配置、数据收集与处理等环节，实现了更加准确、高效的文本生成任务。同时，在调试过程中也不断探索和解决问题，提高了整个项目的可靠性和稳定性。

解决的问题

本文针对自然语言处理领域的文本生成任务，提出了一种新的方法——TechGPT。该方法通过优化模型配置、数据收集与处理等环节，解决了传统方法中存在的精度不高、效率低下等问题。同时，在调试过程中也不断探索和解决问题，提高了整个项目的可靠性和稳定性。这些改进为自然语言处理领域的文本生成任务提供了新的思路和解决方案。

论文实验

本文介绍了在TechGPT项目中使用的两个模型：LLAMA2和Atom-7B-Chat，并对其进行了详细的调试和训练过程的描述。作者使用了不同的数据集对这两个模型进行了测试，并分析了它们的表现。同时，作者还分享了一些在调试过程中遇到的问题以及解决方案。

在实验内容方面，本文主要涉及以下几个方面的对比实验：

模型选择：作者在TechGPT-1.0和TechGPT-2.0项目中选择了LLAMA2作为基础模型，并探讨了不同版本的LLAMA2和ChatGLM等模型的表现。

数据集选择与处理：作者收集了大量的数据用于训练和测试模型，并对这些数据进行了分类和筛选。其中，知识图谱构建任务的数据集包括NER和实体关系三元组提取等子任务的数据，而其他任务的数据则包括翻译、摘要、问答等多个领域。

文章优点

该文章介绍了作者团队开展的TechGPT-2.0项目，该项目旨在解决知识图谱构建任务，并通过减少参数来评估大型模型的性能。该文详细阐述了项目的背景、目标、方法和实验结果等方面的内容，对于研究者了解大规模语言模型与知识图谱的关系具有一定的参考价值。此外，该文还分享了在数据收集和处理、调试Ascend服务器以及模型训练过程中的经验和技巧，为其他研究人员提供了宝贵的指导和建议。

方法创新点

该文的方法创新点主要体现在以下几个方面：

采用了LLAMA2预训练模型，并在此基础上进行了进一步的fine-tuning；开发了一个专门用于长文本问题的QLoRA权重；通过对数据集进行修改和手动标注，构建了针对NER和RTE等子任务的知识图谱构建数据集；在模型训练过程中，结合了大量的通用指令Fine-tuning数据和知识图谱领域数据，以保证模型的一般能力和泛化能力。

未来展望

该文对未来的研究方向提出了一些建议，包括：

对模型进行更深入的实验和测试，以便更好地评估其性能；将模型应用于更多的研究领域，如RAG、Agent、工具调用和多模态研究等；进一步探索和优化在Ascend服务器上进行模型训练的相关技术和方法，以提高模型训练效率和质量。

TechGPT2.0大模型在多个领域展现出了强大的自然语言处理能力和广泛的应用前景。它不仅可以用于学术研究，还可以为医疗、法律、金融、教育等多个行业提供智能化的解决方案。随着技术的不断发展和完善，TechGPT2.0有望在未来发挥更加重要的作用。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述