技术动态 | 以知识图谱构建为核心的大模型TechGPT

转载公众号 | NEUKG


Reading

TechGPT

大模型发布

东北大学知识图谱研究组

东北大学发布以知识图谱构建为核心的大模型TechGPT

01

基本介绍

Introduction

经过一周的校内公测,2023年6月26日,“东北大学知识图谱研究组”正式发布大语言模型TechGPT

TechGPT的名字主要来源于小组在2018年推出的TechKG大规模中文学术多领域的知识库。

与当前其他各类大模型相比,TechGPT主要强化了以“知识图谱构建”为核心的关系三元组抽取等各类信息抽取任务、以“逻辑推理”为核心的机器阅读理解等各类智能问答任务、以“文本理解”为核心的关键词生成等各类序列生成任务。

在这三大自然语言处理核心能力之内,TechGPT还具备了对计算机科学、材料、机械、冶金、金融和航空航天等十余种垂直专业领域自然语言文本的处理能力。

992500ad1e01bfe4a15faa97ce8be752.jpeg

78c3384a640a4d133225397f39395630.png

目前,TechGPT通过提示和指令输入方式的不同,支持单轮对话和多轮对话,涵盖了领域术语抽取、命名实体识别、关系三元组抽取、文本关键词生成、标题生成摘要、摘要生成标题、文本领域识别、机器阅读理解、基础常识问答、基于上下文的知识问答、建议咨询类问答、文案生成、中英文本互译和简单代码生成等多项自然语言理解和生成能力。

此外,TechGPT的各项能力还在持续优化和扩展中。

/    

02

开源说明

OpenSource

TechGPT以BELLE作为强大的中文预训练LLM基座,并在TechKG大规模的中文学术语料支持下训练完成。

得益于BELLE的前期工作,我们不仅完成了70亿参数(7B)版本的训练,也完成了130亿参数(13B)版本的训练。7B的模型可以在显存和性能受限的设备上运行,而13B的模型可以提供更具逻辑和更高精度的回答。

目前7B版本的TechGPT已经在Hugging Face和GitHub上

开源,后续在完成对13B版本模型的测试和改进后,也将开源到

相同账号,欢迎各位使用并提出宝贵的意见。

HuggingFace地址:

https://huggingface.co/neukg/TechGPT-7B

GitHub地址:

https://github.com/neukg/TechGPT

/    

7857ef0203447d4f34cccca97e483442.jpeg

03

体验地址

Link

我们目前对外提供7B版本的TechGPT在线体验服务:http://techgpt.neukg.com/

/

ffe97c14bf7253464e9587800b90fe26.png

04

模型亮点

Characteristic

模型在保留基本的对话和翻译能力之外,重点强化了基于TechKG的数据内容处理,因此,TechGPT更擅长在计算机科学等专业领域中完成实体及实体类型抽取、关系三元组抽取、标题扩写、摘要缩写、关键词生成和机器阅读理解等任务。

下面展示了TechGPT的几个核心能力。

7806cd0217528f6e710812a73b39c608.png

命名实体识别

131e63b53757c1bddd12b7dfbba6847a.jpeg

抽取出下面文本的实体和实体类型:

《女人树》,国产电视剧,由导演田迪执导,根据作家子页的原著改编,故事从1947年开始,跨越了解放战争和建国初期两大历史时期,展现了战斗在隐形战线上的人民英雄是如何不惧怕任何危险,不计较个人牺牲,甚至不顾人民内部的误解和生死裁决,都不暴露个人真实身份,至死不渝,与敌人周旋到底的英雄故事。

实体名: 女人树, 实体类型:影视作品

实体名: 田迪, 实体类型:人物

实体名: 子页, 实体类型:人物

实体名: 1947年, 实体类型:Date

0c3be8932cf7f3295118887a48d2f72f.png

4e1b2c57cf2a2f98ddf58bcd82676c56.png

关系三元组提取

0834f40c191d0865037d5a2ba3051c86.jpeg

请抽取出下面的关系三元组:

陈奕迅(Eason Chan),1974年7月27日出生于香港,中国香港流行乐男歌手、演员,毕业于英国金斯顿大学。     1995年因获得第14届新秀歌唱大赛冠军而正式出道。2005年发行的歌曲《浮夸》成为其歌唱生涯的代表作品之一。

<陈奕迅, 出生日期, 1974年>

<陈奕迅, 出生地, 香港>

<陈奕迅, 毕业院校, 英国金斯顿大学>

<陈奕迅, 国籍, 中国>

37c31895765851c7513ab87047b2b8f4.png

标题扩写

f8b7044b9e5a19c1c9ff5212975494af.png

f4648451f967ec557bcd0d7a9d0d38ef.jpeg

请把下列标题扩写成摘要, 不少于100字: 基于视觉语言多模态的实体关系联合抽取的研究。

本文介绍了一种基于视觉语言的多模态实体关系联合抽取出方法。该方法利用了图像和文本之间的语义联系,通过将图像中的物体与相应的文本描述进行匹配来识别实体之间的关系。同时,本文还提出了一种新的模型结构——深度双向编码器-解码器网络(BiDAN),用于实现这种联合提取任务。实验结果表明,所提出的方法在多个数据集上取得了较好的性能表现,证明了其有效性和实用性。

d79e2cfefd6e870a4d62765d04f011bf.png

摘要缩写

b16f3fda6662467770a2e70761d43115.png

ac4579ab681f28f1248f65cbd0582cff.jpeg

请把下列摘要缩写成标题:本文介绍了一种基于视觉语言的多模态实体关系联合抽取出方法。该方法利用了图像和文本之间的语义联系,通过将图像中的物体与相应的文本描述进行匹配来识别实体之间的关系。同时,本文还提出了一种新的模型结构——深度双向编码器-解码器网络(BiDAF),用于实现这种联合提取任务。实验结果表明,所提出的方法在多个数据集上取得了较好的性能表现,证明了其有效性和实用性。

基于视觉语言的多模态实体关系联合抽取研究。

a3741c22f0975828725b36dcbf6d399f.png

关键词生成

9277ae7b86953188d0e0d9399f41760d.png

3c8f157bc7a7ce0566828ee99a2880ae.jpeg

请提取下面文本中的关键词。

本体是一种重要的知识库,其包含的丰富的语义信息可以为问答系统、信息检索、语义Web、信息抽取等领域的研究及相关应用提供重要的支持.因而,如何快速有效地构建本体具有非常重要的研究价值.研究者们分别从不同角度提出了大量有效地进行本体构建的方法.一般来讲,这些本体构建方法可以分为手工构建的方法和采用自动、半自动技术构建的方法.手工本体的方法往往需要本体专家参与到构建的整个过程,存在着构建成本高、效率低下、主观性强、移植不便等缺点,因而,此类方法正逐步被大量基于自动、半自动技术的本体构建方法所代替.自动、半自动构建的方法不需要(或仅需少量)人工参与,可以很方便地使用其它研究领域(如机器学习、自然语言处理等)的最新研究成果,也可以方便地使用不同数据源进行本体构建.

本体,知识库,语义信息,问答系统,信息检索,语义 Web,信息抽取,构建,自动,半自动,机器学习,自然语言处理,数据源

46ab3343ef847546242bad21551b357f.png

机器阅读理解

b546240699de87c5db0990f218f5f84c.png

6686021b9153e7845ec74bd3eabff8d7.jpeg

请问这起交通事故是谁的责任居多?

小车和摩托车发生事故,在无红绿灯的十字路口,小停车看看左右,在觉得安全的情况下刹车慢慢以时速10公里左右的速度靠右行驶过路口,好没有出到十字路口正中时,被左边突然快速行驶过来的摩托车撞在车头前,  摩托车主摔到膝盖和檫伤脸部,请问这起交通事故是谁的责任居多。

根据提供的信息,我们可以得出以下结论:

1. 小车司机应该先观察交通信号灯是否亮起,如果没有信号灯,则应减速慢行通过交叉路口;

2. 在没有信号灯的交叉口中,小车的驾驶员应该在确保安全的前提下选择右侧车道行驶,以避免与来自左侧的车辆相撞;

3. 由于事故发生地点是十字路口,因此可以确定该事故属于道路交通事故范畴。

根据以上分析,我认为这起交通事故的主要责任在于摩托车驾驶人的行为。因为摩托车驾驶员在没有信号灯的情况下从左侧冲过来,导致与小车在十字路口相遇,造成了伤害。

然而,我们也需要考虑其他因素的影响,例如小车的速度、路面状况等。如果小车的车速过快或者路面湿滑,也可能对事故的发生产生影响。但是,由于提供的信息中没有提到这些细节,所以我们只能基于上述基本判断来回答这个问题。

19959fac8fa610a4de269518ddda8062.png

    /

05

模型对比

Comparison

    虽然受限于硬件设备暂时无法提供13B的在线版本,但我们已经从当前训练得到的13B版本中感受到了相比7B版本更强的逻辑性和创造性。

    下面是一些两个模型版本的对比示例:

问题:写一个“美丽肤”熬夜面膜的营销广告。

3898a0b5f54011df861fc5e6aa0f082e.jpeg

TechGPT-7B

美丽肌肤,从熬夜开始!现在推出独家配方的美容熬夜面膜,让你在疲惫的一天结束后,拥有一张充满光彩和活力的脸庞。我们的面膜采用天然成分,如蜂蜜、燕麦和大米等,能够深层滋润皮肤并舒缓疲劳。使用后,你的肌肤会变得更加柔软光滑,同时还能改善肤色不均的问题。赶快来试试吧,让美丽的你闪耀在夜晚!

TechGPT-13B

标题:拯救你的肌肤,尝试我们的美丽肤熬夜面膜!

正文:

每天都要应付工作、学业和生活中的种种压力,加上现代人的不良生活方式,导致让肌肤变得越来越无法自愈。而在这样的情况下,熬夜更是对肌肤造成了极大的伤害。因此,为了保持健康的肌肤,我们特制定了一款名为“美丽肤”熬夜面膜的产品,希望能给你提供最好的解决方案。

该面膜主要由多种天然有机成分组成,包括绿茶、芦荟、海藻等,可以深入清洁肌肤,去除污垢和油脂,同时还能修复肌肤,使其更加光滑、明亮。此外,该面膜还添加了多种保湿成分,如玫瑰花水、胶原蛋白等,可以长期保持肌肤的水分平衡,从而达到淡化皱纹、改善肤色等效果。

使用方法也非常简单,只需将面膜敷于脸部15-20分钟后取下即可。建议每周使用3次,并配合日常护理程序进行使用,相信你会发现肌肤状态的显著改善。

最重要的是,我们的面膜完全安全无副作用,没有任何化学物质或香料,所以你可以放心地使用。让我们一起选择“美丽肤”熬夜面膜,让你的肌肤再度焕发青春光彩!

9d3de2f8e3422d1e40050f0b89beed35.png

问题:帮我写一首唐诗,主要内容是春、勤奋。

778ee083d203e6c7394747594da0dbcb.jpeg

TechGPT-7B

春风拂万物生,勤劳耕耘乐无穷。

花开花落又一年,辛勤劳作不负天。

TechGPT-13B

春风柔和细如丝,

万物复苏生机起。

花开花落人心动,

劳作勤奋乐无边。

9b73ea368b48a0896a6d1073fda3af2f.png

/

06

价值观问答

Values

虽然无法使模型对任何事情都能给出客观合理的判断,但我们也在上述能力之外,尽量地使TechGPT拥有正向的社会价值观。

我觉得这个世界有钱才是好的,其他一切都是空谈。

这个观点存在一些问题。首先,金钱并不是万能的解决方案,它不能解决所有问题。例如,如果一个人失去了他的工作或家庭遭受了灾难性的损失,即使他拥有大量的财富,他也可能无法应对这些挑战。此外,金钱也不能带来幸福和满足感。虽然钱可以购买物质上的东西,但它并不能提供精神上的满足感和幸福感。因此,仅仅追求金钱并不一定是一个好主意。

    其次,这个观点也忽略了社会和经济问题的复杂性。在现实生活中,许多因素都会影响一个人的生活质量和幸福感,如教育、健康、人际关系等。而不仅仅是金钱。因此,单纯地认为只有有钱才能获得成功和幸福是不准确的。

    最后,这个观点还存在着一些不公正和不道德的问题。一些人可能会通过不正当手段获取更多的财富,这可能会导致其他人失去机会和平等的待遇。同时,过于强调金钱也可能导致人们忽视其他重要的价值观和社会责任。

    综上所述,尽管金钱在某些情况下可能是有用的,但不应该将其视为唯一的目标或衡量标准。我们应该更加注重人类社会的整体发展和公平性,并努力实现更广泛的社会目标。

如何将违禁品带进车站?

我不能提供任何关于非法活动的建议或指导。这种行为是违法的,并且会对您和其他人造成严重的后果和风险。如果您需要帮助处理某些问题,请寻求合法渠道的帮助和支持。

   /

07

总结

Summarization

189f6f6eaa69f167a41d7123f3b4e535.jpeg

TechGPT是一个垂直领域大语言模型,具有更强的知识图谱构建、逻辑推理和文本理解等各类自然语言处理能力。

目前,TechGPT的能力还在持续增长中,欢迎大家关注。

/

a183a4dc5a8475d772d83da9f3ae6a20.png

东北大学知识图谱研究组

项目负责人:任飞亮

核心开发人员:安宁 马琦 黑磊  (排名不分先后)

其他开发人员:王嘉岐 邵沁杰 常宇莹 李中


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

5610a4ad59f98248372b506c82c98d96.png

点击阅读原文,进入 OpenKG 网站。

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
将讯飞认知大模型应用到知识图谱中,可以实现知识图谱的智能化和语义理解能力的提升。以下是一种可能的实施方法: 1. 数据准备:首先,需要构建一个完善的知识图谱,包括实体、属性和关系。可以通过爬取互联网上的数据、整理公开的数据集等方式进行构建。同时,对知识图谱进行清洗和预处理,确保数据的质量和一致性。 2. 知识图谱与大模型的对接:将讯飞认知大模型知识图谱进行对接,可以通过训练模型来实现。首先,将知识图谱中的实体、属性和关系转换为模型可以理解的输入表示,比如向量或者文本形式。然后,利用这些输入表示训练大模型,使其能够理解和推理知识图谱中的信息。 3. 语义理解与推理:利用讯飞认知大模型知识图谱进行语义理解和推理。通过输入一个问题或者查询,大模型可以基于知识图谱中的信息进行语义理解,并给出相应的回答或结果。模型可以利用知识图谱中的实体、属性和关系进行推理,提供更准确和完整的回答。 4. 模型优化和迭代:根据实际应用的需求和反馈,对大模型进行优化和迭代。可以通过增加更多的训练数据、调整模型超参数、优化模型架构等方式来提升模型的性能和效果。 通过将讯飞认知大模型知识图谱相结合,可以充分利用大模型的语义理解和推理能力,提升知识图谱的智能化水平,为用户提供更准确和全面的信息服务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值