![](https://img-blog.csdnimg.cn/a9056668cfda4f85af0104990af9a04b.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
NLP/知识图谱:信息抽取专栏
文章平均质量分 95
本专栏会持续更新包含知识图谱(信息抽取等算法)、NLP业务落地方案以及码源。声明:随着更新迭代价格会随之上涨
优惠券已抵扣
余额抵扣
还需支付
¥79.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
汀、人工智能
本博客将不定期更新关于机器学习、强化学习、数据挖掘以及NLP等领域相关知识,以及分享自己学习到的知识技能,感谢大家关注!
展开
-
NLP专栏简介:数据增强、智能标注、意图识别算法|多分类算法、文本分割、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等
NLP专栏简介:数据增强、智能标注、意图识别算法|多分类算法、文本分割、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等专栏链接:NLP领域知识+项目+码源+方案设计前人栽树后人乘凉,本专栏提供资料:数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等项目代码整合,省去你大把时间,效率提升。 帮助你快速完成任务落地,以及科研baseline。原创 2023-04-07 14:57:01 · 2947 阅读 · 0 评论 -
玩转字词句魔法:打造超强样本集的数据增强策略,句式变换揭秘同义句生成与回译在数据增强中的创新应用
玩转字词句魔法:打造超强样本集的数据增强策略,句式变换揭秘同义句生成与回译在数据增强中的创新应用原创 2023-12-18 10:48:05 · 834 阅读 · 0 评论 -
全国大数据与计算智能挑战赛:面向低资源的命名实体识别基线方案,排名13/64,组织单位:(大数据与决策实验室)
大赛背景全国大数据与计算智能挑战赛是由国防科技大学系统工程学院大数据与决策实验室组织的年度赛事活动,旨在深入挖掘大数据应用实践中亟需破解的能力生成难题,选拔汇聚数据领域优势团队,促进大数据领域的技术创新和面向需求的成果生成,推动形成 “集智众筹、联合攻关、共享共用” 的研建用一体迭代演进创新模式。原创 2023-06-18 12:48:29 · 4269 阅读 · 5 评论 -
2023中国高校计算机大数据挑战赛:论文学科分类baseline|清华主办
赛事背景自 2022 年底以来,大规模语言模型在各行各业产生了广泛的应用,其中围绕学术工具开发也诞生了许多具有影响力的应用,例如 ChatPDF 等。另一方面,在 2023 年 3 月 14 日,智谱 AI 与清华大学联合发布了 ChatGLM-6B 开源模型,并在不到一个月的时间内吸引了超过 100 万人下载安装。该模型在 Hugging Face (HF) 全球大模型下载榜中连续 12 天位居第一名,在国内外的开源社区中产生了较大的影响。原创 2023-06-17 23:20:09 · 1240 阅读 · 4 评论 -
C.12 军事领域关系抽取:UIE Slim最新升级版含数据标注、serving部署、模型蒸馏、可视化高亮展示等,助力工业应用场景快速落地
小样本军事关系抽取数据集实验指标:样本量PrecisionRecallF1 Score0-shot0.646340.535350.585645-shot0.894740.850000.8717910-shot0.927930.858330.89177full-set0.920.920.92性能对比模型推理耗时提升倍数UIE+faster30.83131.751-UIE Slim5.905.23。原创 2023-05-31 18:40:57 · 701 阅读 · 0 评论 -
C.11医疗领域实体抽取:UIE Slim最新升级版含数据标注、serving部署、模型蒸馏等教学,助力工业应用场景快速落地
模型推理耗时提升倍数UIE+faster71.23170.561+UIE Slim9.327.6本项目为UIE框架升级版本实体关系抽取,详细讲解了数据标注,以及医疗领域NER微调,同时完成基于SimpleServing的快速服务化部署,并考虑了在一些工业应用场景中对性能的要求较高,若不能有效压缩则无法实际应用。因此,将UIE模型的知识迁移到封闭域信息抽取小模型,同时使用FasterTokenizer进行文本预处理加速,整体提速7.6x倍。原创 2023-05-30 12:43:01 · 373 阅读 · 0 评论 -
C.10[完整版]文档级关系抽取:基于结构先验产生注意力偏差SSAN模型
目前文档级关系抽取有三个公开的学术的数据集,分别是 CDR、GDA 以及清华大学团队发布的 DocRED。CDR是生物领域的一个人工标注的一个数据集,其任务是预测化学和疾病概念之间的二元相互作用,包含了 500 多篇训练文章;(20MB)GDA也是一个生物医学领域的大规模数据集,其任务主要是预测基因和疾病概念之间的二元相互作用,由 2 万~3 万篇训练文档组成;相对而言,(568MB)DocRED是一个比较新的大规模的众包数据集。原创 2023-04-07 15:34:09 · 973 阅读 · 0 评论 -
C.9 文档级关系抽取:基于结构先验产生注意力偏差SSAN模型
目前文档级关系抽取有三个公开的学术的数据集,分别是 CDR、GDA 以及清华大学团队发布的 DocRED。CDR是生物领域的一个人工标注的一个数据集,其任务是预测化学和疾病概念之间的二元相互作用,包含了 500 多篇训练文章;(20MB)GDA也是一个生物医学领域的大规模数据集,其任务主要是预测基因和疾病概念之间的二元相互作用,由 2 万~3 万篇训练文档组成;相对而言,(568MB)DocRED是一个比较新的大规模的众包数据集。原创 2022-10-24 09:49:46 · 868 阅读 · 0 评论 -
C.8 基于ERNIELayout&PDFplumber-UIEX的多方案学术论文信息抽取
本项目提供了基于ERNIELayout&PDFplumber-UIEX多方案学术论文信息抽取,有兴趣同学可以研究一下UIE-X。UIE-X延续UIE的思路,基于跨模态布局增强预训练模型文心ERNIE-Layout重训模型,融合文本、图像、布局等信息进行联合建模,能够深度理解多模态文档。基于Prompt思想,实现开放域信息抽取,支持零样本抽取,小样本能力领先.原创 2023-01-05 10:40:23 · 1359 阅读 · 0 评论 -
C.6基线提升至96.45%:2022 司法杯犯罪事实实体识别+数据蒸馏+主动学习
任务介绍本赛道由中国司法大数据研究院承办。犯罪事实实体识别是司法NLP应用中的一项核心基础任务,能为多种下游场景所复用,是案件特征提取、类案推荐等众多NLP任务的重要基础工具。本赛题要求选手使用模型抽取出犯罪事实中相关预定义实体。与传统的实体抽取不同,犯罪事实中的实体具有领域性强、分布不均衡等特性。官网:http://data.court.gov.cn/pages/laic.html数据介绍(1) 本赛题数据来源于危险驾驶罪的犯罪事实,分为有标注样本和无标注样本,供选手选择使用;原创 2022-10-31 15:17:10 · 1088 阅读 · 0 评论 -
C.5 Paddlenlp之UIE关系抽取模型【高管关系抽取为例】
本项目将演示如何通过小样本样本进行模型微调,完成关系抽取。马云浙江省杭州市人,阿里巴巴集团主要创始人之一。现任阿里巴巴集团主席和首席执行官,他是《福布斯》杂志创办50多年来成为封面人物的首位大陆企业家,曾获选为未来全球领袖。任正非是中国大陆的民营电信设备企业一-华为公司的创始人兼总裁。他关于企业“危机管理”的理论与实践曾在业内外产生过广泛影响。马化腾,是腾讯主要创办人之一现担任公司控股董事会主席兼首席执行官。作为深圳土生土长的企业家,他曾在深圳大学主修计算机及应用,于1993年取得深大理学士学位。.....原创 2022-07-25 10:03:35 · 2794 阅读 · 26 评论 -
C.4.5 PaddleNLP UIE--小样本快速提升性能(含doccona标注)
自动从无结构或半结构的文本中抽取出结构化信息的任务, 主要包含的任务包含了实体识别、关系抽取、事件抽取、情感分析、评论抽取等任务; 同时信息抽取涉及的领域非常广泛,信息抽取的技术需求高,下面具体展现一些示例针对以上难题,中科院软件所和百度共同提出了一个大一统诸多任务的通用信息抽取技术 UIE(Unified Structure Generation for Universal Information Extraction),发表在ACL‘22。UIE在实体、关系、事件和情感等4个信息抽取任务、13个数据集原创 2022-06-07 16:20:00 · 5902 阅读 · 14 评论 -
C.4.4 Paddlenlp之UIE模型实战实体抽取任务【打车数据、快递单】
本项目将演示如何通过小样本样本进行模型微调,快速且准确抽取快递单中的目的地、出发地、时间、打车费用等内容,形成结构化信息。辅助物流行业从业者进行有效信息的提取,从而降低客户填单的成本。{“id”“昌胜远黑龙江省哈尔滨市南岗区宽桥街28号18618391296”,“relations”[{“id”“姓名”},{“id”“省份”},{“id”“城市”},{“id”“县区”},{“id”“详细地址”},{“id”“电话”}]}{“id”{“id”1,“text”.........原创 2022-07-16 15:33:08 · 1749 阅读 · 0 评论 -
C.4.3 快递单信息抽取【三】--五条标注数据提高准确率,仅需五条标注样本,快速完成快递单信息任务
本项目将演示如何通过五条标注样本进行模型微调,快速且准确抽取快递单中的姓名、电话、省、市、区、详细地址等内容,形成结构化信息。辅助物流行业从业者进行有效信息的提取,从而降低客户填单的成本。如何从物流信息中抽取想要的关键信息呢?我们首先要定义好需要抽取哪些字段。比如现在拿到一个快递单,可以作为我们的模型输入,例如“张三18625584663广东省深圳市南山区学府路东百度国际大厦”,那么序列标注模型的目的就是识别出其中的“张三”为人名,“18625584663”为电话名,“广东省深圳市南山区百度国际大厦”分别是原创 2022-06-07 16:17:27 · 1213 阅读 · 1 评论 -
C.4.2快递单信息抽取【二】基于ERNIE1.0至ErnieGram + CRF预训练模型
命名实体识别是NLP中一项非常基础的任务,是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具。命名实体识别的准确度,决定了下游任务的效果,是NLP中的一个基础问题。在NER任务提供了两种解决方案,一类LSTM/GRU + CRF,通过RNN类的模型来抽取底层文本的信息,而CRF(条件随机场)模型来学习底层Token之间的联系;另外一类是通过预训练模型,例如ERNIE,BERT模型,直接来预测Token的标签信息。本项目将演示如何使用PaddleNLP语义预训练模型ERNIE完成从快递单中原创 2022-06-01 20:16:48 · 1197 阅读 · 1 评论 -
C.7[信息抽取]基于ERNIE3.0的多对多信息抽取算法:属性关系抽取
本项目讲解了基于ERNIE信息抽取技术,对属性和关系的抽取涉及多对多抽取,主要是使用可ERNIEKIT组件,整体效果非常不错,当然追求小样本学习的可以参考之前UIE项目或者去官网看看paddlenlp最新的更新,对训练和部署进行了提速。原创 2022-12-03 20:23:32 · 1147 阅读 · 0 评论 -
C.4.1快递单中抽取关键信息【一】----基于BiGRU+CR+预训练的词向量优化
项目链接:主要介绍:如何从物流信息中抽取想要的关键信息呢?我们首先要定义好需要抽取哪些字段。比如现在拿到一个快递单,可以作为我们的模型输入,例如“张三18625584663广东省深圳市南山区学府路东百度国际大厦”,那么序列标注模型的目的就是识别出其中的“张三”为人名(用符号 P 表示),“18625584663”为电话名(用符号 T 表示),“广东省深圳市南山区百度国际大厦”分别是 1-4 级的地址(分别用 A1~A4 表示,可以释义为省、市、区、街道)。这是一个典型的命名实体识别(Named Entit原创 2022-06-01 19:33:43 · 1678 阅读 · 1 评论 -
C.3 知识图谱项目实战(一):瑞金医院MMC人工智能辅助构建知识图谱--初赛实体识别
1.技术背景&赛题介绍:A Labeled Chinese Dataset for Diabetes中文糖尿病标注数据集详情请见。数据集链接:瑞金医院MMC人工智能辅助构建知识数据源:知识图谱构建SPO,知识图谱构建SPO-机器学习文档类资源-CSDN下载代码链接:瑞金医院MMC人工智能辅助构建知识代码-机器学习文档类资源-CSDN下载赛题说明本次大赛旨在通过糖尿病相关的教科书、研究论文来做糖尿病文献挖掘并构建糖尿病知识图谱。参赛选手需要设计高准确率,高效的算法来..原创 2022-05-18 15:33:58 · 2101 阅读 · 0 评论 -
C.2 产业应用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练
NLP专栏简介:数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等专栏详细介绍:NLP专栏简介:数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等前人栽树后人乘凉,本专栏提供资料:数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等项目代码整合,省去你大把时间,效率提升。 帮助你快速完成任务落地,以及科研baselin原创 2022-06-07 16:21:57 · 3701 阅读 · 1 评论 -
C.1 百度飞桨:ERNIE 3.0 、通用信息抽取 UIE、paddleNLP的安装使用[一]
https://github.com/PaddlePaddle/PaddleNLPhttps://github.com/PaddlePaddle/PaddleNLP1.安装paddle参考官网:开始使用_飞桨-源于产业实践的开源深度学习平台首先在anaconda下创建虚拟环境:conda create -n test python=3.8 #test为创建的虚拟环境名称在安装paddlepython -m pip install paddlepaddle==2.3.0 -..原创 2022-05-30 20:08:52 · 7301 阅读 · 7 评论 -
B.4【智能标注】:基于Labelstudio的UIE半监督智能标注方案(本地版),赶快用起来啦。
人工标注的缺点主要有以下几点:产能低:人工标注需要大量的人力物力投入,且标注速度慢,产能低,无法满足大规模标注的需求。受限条件多:人工标注受到人力、物力、时间等条件的限制,无法适应所有的标注场景,尤其是一些复杂的标注任务。易受主观因素影响:人工标注受到人为因素的影响,如标注人员的专业素养、标注态度、主观判断等,易受到人为误差的干扰,导致标注结果不准确。难以满足个性化需求:人工标注无法满足所有标注场景和个性化需求,无法精确地标注出所有的关键信息,需要使用者自行选择和判断。原创 2023-04-03 10:53:47 · 870 阅读 · 0 评论 -
B.3【智能标注】:基于Labelstudio的UIE半监督深度学习的智能标注方案(云端版),提效。
Label Studio 所提供的 Machine Learning Backend 提供了一个比较灵活的辅助人工标注的框架,我们通过它确实可以加快 nlp 数据的标注Label Studio 的 enterprise 版本提供了 Active Learning 的流程,不过从其描述看这个流程并不完美,尤其是 fit 部分,由于 Label Studio 低估了「Train」所花费的时间,所以每次标注都自动训练的流程可能并不会那么顺滑(会在链接时候等待一段时间)原创 2023-03-29 14:05:16 · 1366 阅读 · 1 评论 -
B.3【智能标注】:基于Labelstudio的UIE半监督深度学习的智能标注方案(云端版),提效。
Label Studio 所提供的 Machine Learning Backend 提供了一个比较灵活的辅助人工标注的框架,我们通过它确实可以加快 nlp 数据的标注Label Studio 的 enterprise 版本提供了 Active Learning 的流程,不过从其描述看这个流程并不完美,尤其是 fit 部分,由于 Label Studio 低估了「Train」所花费的时间,所以每次标注都自动训练的流程可能并不会那么顺滑(会在链接时候等待一段时间)原创 2023-03-29 11:11:51 · 1706 阅读 · 10 评论 -
B.2【智能标注】:主动学习(Active Learning)简介综述汇总以及主流技术方案
主动学习是指对需要标记的数据进行优先排序的过程,这样可以确定哪些数据对训练监督模型产生最大的影响。主动学习是一种学习算法可以交互式查询用户(teacher 或 oracle),用真实标签标注新数据点的策略。主动学习的过程也被称为优化实验设计。主动学习的动机在于认识到并非所有标有标签的样本都同等重要。主动学习是一种策略/算法,是对现有模型的增强。而不是新模型架构。主动学习背后的关键思想是,如果允许机器学习算法选择它学习的数据,这样就可以用更少的训练标签实现更高的准确性。原创 2022-10-26 16:43:42 · 1531 阅读 · 0 评论 -
B.1【智能标注】:基于 hugging face 预训练模型的实体识别方案:生成doccano要求json格式
强烈推荐:数据标注平台doccano----简介、安装、使用、踩坑记录_汀、的博客-CSDN博客_doccanohuggingface官网参考:数据标注平台doccano----简介、安装、使用、踩坑记录相关教程直接参考别人的:与训练模型 【Huggingface Transformers】保姆级使用教程—上 - 知乎【Huggingface Transformers】保姆级使用教程02—微调预训练模型 Fine-tuning - 知乎huggingface transformers的trainer使用指南原创 2022-07-05 15:36:41 · 1472 阅读 · 0 评论 -
A.5.[数据标注]:基于Label studio的训练数据标注指南:情感分析任务观点词抽取、属性抽取
包括属性抽取、观点抽取、属性-观点抽取、属性-情感极性抽取、属性-情感极性-观点词三元组抽取等任务。其中属性-情感极-观点词(A-S-O)三元组抽取是最常见的任务之一,下面优先讲解该任务的标注规则。创建项目之前,需要先确定标注的任务类型以及需要标注哪些内容,然后点击创建(Create)开始创建一个新的项目,填写项目名称、描述。这里需要定位属性、情感极性、观点词三类信息,在标注时,需要将属性和情感极性进行组合,形成复合标签。设定好标签后,即可开始进行标注,选择正向或负向,最后点击提交,便标注好一条数据。原创 2023-03-02 17:21:50 · 1442 阅读 · 0 评论 -
A.4.【数据标注】基于Label studio的训练数据标注指南:文本分类任务
在数据转换阶段,还需要提供标签候选信息,放在./data/label.txt文件中,每个标签占一行。例如在医疗意图分类中,标签候选为["病情诊断", "治疗方案", "病因分析", "指标解读", "就医建议", "疾病表述", "后果表述", "注意事项", "功效作用", "医疗费用", "其他"],也可通过options参数直接进行配置。原创 2023-03-02 17:18:56 · 2498 阅读 · 1 评论 -
A.3【数据标注】基于Label studio的训练数据标注指南:(智能文档)文档抽取任务、PDF、表格、图片抽取标注等
Step 2. 关系连线,箭头方向由主体(Subject)指向客体(Object)点击创建(Create)开始创建一个新的项目,填写项目名称、描述,然后选择。目录下(图片的文件名需与上传到label studio时的命名一致)。,输入用户名和密码登录,开始使用label-studio进行标注。Step 1. 标注主体(Subject)及客体(Object)图中展示了Span实体类型标签的构建,其他类型标签的构建可参考。勾选已标注图片ID,选择导出的文件类型为。目录下,并将对应的标注图片放入。原创 2023-03-02 17:06:47 · 3324 阅读 · 3 评论 -
A.2【数据标注】:基于Label studio的训练数据标注指南:信息抽取(实体关系抽取)、文本分类等
{S}的{P}为{O}”需要能够构成语义合理的短语。比如对于三元组(S, 父子, O),关系类别为父子是没有问题的。但按照UIE当前关系类型prompt的构造方式,“S的父子为O”这个表达不是很通顺,因此P改成孩子更好,即“S的孩子为O”。在数据转换阶段,我们会自动构造用于模型训练的prompt信息。点击创建(Create)开始创建一个新的项目,填写项目名称、描述,然后选择。图中展示了实体类型标签的构建,其他类型标签的构建可参考。对于关系抽取,其P的类型设置十分重要,需要遵循以下原则。原创 2023-03-02 17:01:17 · 5648 阅读 · 13 评论 -
A.1[数据标注]:强烈推荐数据标注平台doccano----简介、安装、使用、踩坑记录
官方文档:GitHub - doccano/doccano: Open source annotation tool for machine learning practitioners.记的进虚拟环境!!!!!Step 1. 本地安装doccano(请勿在AI Studio内部运行,本地测试环境python=3.8)Step 2. 初始化数据库和账户(用户名和密码可替换为自定义值)Step 3. 启动doccano 启动的时候不要使用应用程序(我是开着酷狗音乐软件,这个软件占用了端原创 2022-06-07 16:24:10 · 7679 阅读 · 22 评论