
NLP/IE-命名实体识别(NER)
文章平均质量分 50
NLP/命名实体识别(NER)
u013250861
这个作者很懒,什么都没留下…
展开
-
智慧教育开放知识数据集
备注:数据可能存在一些噪声,因为在对每一个样本进行实体标注时是采用模式匹配实现的,可能存在标注错误问题,例如对于句子“一元二次方程组成的方程组是一元二次方程组”,很容易把前头的“一元二次方程”标注为“一元二次方程组”,而这里的“组”应该与“成”字为“组成”。若该词只有一个字则仅为B。实体分为两类,“1”表示该学科切实存在的实体,例如“三角形”、“对数函数”等,标注符号为“KNOW”,“2”表示该学科的定理、定律、法则、求解方法等逻辑概念,例如“点差法”、“正弦定理”等,标注符号为“PRIN”。原创 2023-05-27 22:06:28 · 479 阅读 · 0 评论 -
CLUENER 细粒度命名实体识别baseline:BiLSTM-CRF
地址(address): **省**市**区**街**号,**路,**街道,**村等(如单独出现也标记)。地址是标记尽量完全的, 标记到最细。书名(book): 小说,杂志,习题集,教科书,教辅,地图册,食谱,书店里能买到的一类书籍,包含电子书。公司(company): **公司,**集团,**银行(央行,中国人民银行除外,二者属于政府机构), 如:新东方,包含新华网/中国军网等。游戏(game): 常见的游戏,注意有一些从小说,电视剧改编的游戏,要分析具体场景到底是不是游戏。原创 2023-05-27 21:40:29 · 738 阅读 · 0 评论 -
命名实体识别模型BERT-Bi-LSTM-CRF
序列标注的命名实体识别众多方法中将CNN、RNN和BERT等深度模型与条件随机场CRF结合已经成为最主流和普遍的方法,在本篇文章中我们仅关注基于CRF的序列标注模型。[机器学习]:早期传统机器学习时代,除了利用人工规则的方法外,往往利用隐马尔科夫链HMM和条件随机场CRF进行实体标注;随着深度学习的发展,将CNN和RNN做为基本的文本特征编码器,更好的学习token或word的隐层表示,再利用CRF进行实体标签分类,Bi-LSTM-CRF是最常用和普遍的实体识别模型;[预训练模型]原创 2023-05-27 21:31:32 · 7313 阅读 · 3 评论 -
NER范式(三)-阅读理解:BERT+MRC【基于阅读理解的方式处理NER任务】【[CLS]问题[SEP]样本】【针对每一种实体类型构造一个样本,样本的实体头index、实体尾index处标为1】
', '用', '于', '肾', '脾', '双', '虚', ',', '气', '滞', '血', '瘀', ',', '前', '列', '腺', '增', '生', ',', '慢', '性', '前', '列', '腺', '炎', '血', '瘀', ',', '前', '列', '腺', '增', '生', ',', '慢', '性', '前', '列', '腺', '炎', ';query:实体类型的描述来作为query。使用label smooth缓解过拟合问题。原创 2023-02-18 14:27:22 · 710 阅读 · 0 评论 -
NER范式(二)-Span指针:BERT+Span【用SPAN指针的形式替代CRF模块】【标签:实体的头index、尾index处标上该实体的类型id】
以半指针-半标注的结构预测实体的起始位置,同时标注过程中给出实体类别。采用严格解码形式,重叠实体选取logits最大的一个,保证准确率。采用SPAN指针的形式替代CRF模块,加快训练速度。使用label smooth缓解过拟合问题。原创 2023-02-18 14:00:01 · 1051 阅读 · 0 评论 -
NER范式(一)-序列标注:BERT+CRF【标签:给每个token设置一目标BIO标签】【前向计算时计算每个token的BIO分类标签】【损失函数=-log(真实路径的分数/所有可能路径的总分数)】
中医药天池大数据竞赛--中药说明书实体识别挑战 | SiriBlogNLP系列之实体识别/关系抽取(一):如何用BERT+CRF在比赛中获奖——天池中药说明书实体识别挑战亚军分享 - 知乎原创 2023-02-18 13:48:36 · 709 阅读 · 0 评论 -
中文分词:按char-level(字)来切分
【代码】中文分词:按char-level(字)来切分。原创 2023-02-17 20:04:20 · 204 阅读 · 0 评论 -
NER范式:①BERT+CRF;②Multi-Head(token pairs based);③BERT+MRC;④Span-based
这篇文章梳理下目前命名实体识别(NER)的业务场景与SOTA方法。说到NER,是绕不开BERT+CRF的,根据本人的经验,BERT+CRF就算不是你当前数据集的SOTA,也与SOTA相差不大了,但考虑到更好的效果:CRF虽然引入了无向图,但只约束了相连结点之间的关联,并没有从全局出发来考虑问题更复杂的业务场景:如Flat NER到Nested NER、不连续NER等复杂业务场景的不断涌现,CRF是否还能优雅地解决问题更快的线上serving效率:CRF解码复杂度与输入的文本长度呈线性关系。原创 2023-02-17 09:29:47 · 1374 阅读 · 1 评论 -
命名实体识别-模型:BERT-MRC
BERT-MRC模型用于实体识别领域,在数据量较小的情况下效果较其他模型要更好,原因是因为BERT-MRC模型可以通过问题加入一些先验知识,减小由于数据量太小带来的问题,在实际实验中,在数据量比较小的情况下,BERT-MRC模型的效果要较其他模型要更好一点。BERT-MRC模型很适合在缺乏标注数据的场景下使用。...原创 2022-07-31 22:32:07 · 773 阅读 · 0 评论 -
命名实体识别(NER)-转录(一):doccano标注后的序列标注任务数据转录为BIO形式
doccano是⼀个开源的语料标注⼯具,其可以⽤来标注实体识别训练语料。但是标注之后的数据是不能直接作为训练数据的,还需要将其转 录⼀下,下⾯以转录为BIO为例。一、doccano标注之后的数据格式(json){"id": 4, "text": "?⽣益科技主要从事覆铜板制造与销售业务,销售收⼊占到公司总收⼊的81.52%。", "meta": {}, "annotation_approver": null, "labels": [[1, 5, "ORG"], [32, 38, "NUM"]]}{"原创 2022-05-22 23:57:02 · 1551 阅读 · 0 评论 -
命名实体识别(NER)-转录(二):根据BIO序列提取实体【根据神经网络预测的结果BIO转录提取出实体】
一、方式一遇到B则前面存在的实体,进行一次存储。多个I粘连一块儿也可能被认为是一个实体。错误的情况是B识别成I了。对于类别判断失误,粘连的实体取众数。#标签转录BIO格式string="我是李明,我爱中国,我来自呼和浩特"predict=["o","o","i-per","i-per","o","o","o","b-loc","i-loc","o","o","o","o","b-per","i-loc","i-loc","i-loc"]# 返回格式item = {"string": str原创 2022-05-22 23:45:40 · 905 阅读 · 0 评论 -
NLP-信息抽取:概述【Information Extraction, 从纯文本中进行:①实体抽取与链指(命名实体识别)、②关系抽取、③事件抽取】
人工智能-自然语言处理(NLP)-应用场景:知识抽取/信息抽取(Information Extraction)原创 2021-02-01 23:59:37 · 5820 阅读 · 1 评论 -
自然语言处理(NLP)-第三方库(工具包):CRF++【通用领域命名实体识别库】【CRF++是CRF算法的一个实现】【在专业领域(电商、医药等)中的效果不好】
二、利用crf++进行实体识别的流程利用crf++进行实体识别的流程确定标签体系;确定特征模板文件;处理训练数据文件;模型训练。1、确定标签体系大部分情况下,标签体系越复杂准确度也越高,但相应的训练时间也会增加。因此需要根据实际情况选择合适的标签体系。2、确定模板文件特征模版是一个文本文件,其内容如下所示,其中每行表示一个特征。如下模板使用了unigram特征,并且仅以字符本身作为特征而不考虑其他特征。除当前字符外,还使用了其前后3个字,以及上下文的组合作为特征。CRF++会根据特.原创 2022-05-04 16:31:25 · 415 阅读 · 0 评论 -
命名实体识别(NER)综述【人名、地名、组织机构名、时间、日期、货币、百分比、专有名词】【标注体系:BIO(标注时用)、BIOES(训练时将BIO转为BIOES)】
确切来说命名实体识别是分词的子任务。由于命名实体数量不断动态增加,通常不可能在词典中穷尽列出,且其构成方法具有各自的一些规律性,因而,通常把对这些词的识别从分词任务中独立处理,称为命名实体识别。一、命名实体识别(Named Entity Recognition)概述1、命名实体识别(Named Entity Recognition)命名实体识别(Named Entity Recognition)是自然语言处理中的一项基础任务,应用范围非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实原创 2022-02-08 23:15:00 · 2377 阅读 · 0 评论 -
NLP-信息抽取-命名实体识别(NER):数据集【CoNLL2003、OneNotes、MSRA、Weibo、CLUENER2020】
命名实体识别(NameEntity Recognition)是信息提取的一个子任务,其目的是将文本中的命名实体定位并分类为预定义的类别,如人员、组织、位置等。它是信息抽取、问答系统和句法分析等应用领域的重要基础技术,是结构化信息抽取的重要步骤。参考资料:【NER】中文细粒度命名实体识别数据集来了GitHub:CLUENER2020CLUENER2020原文:https://arxiv.org/abs/2001.04351 ...原创 2022-03-28 22:13:44 · 2837 阅读 · 0 评论 -
自然语言处理-文本预处理:大小写标准化、停止词移除、标点符号处理、空白处理
参考资料:自然语言处理-文本预处理原创 2022-02-20 01:34:28 · 824 阅读 · 0 评论 -
最短路径算法:迪杰克斯拉(Dijkstra)算法(基于贪心思想)【从一个顶点到其余各顶点的最短路径算法,解决的是有权图中最短路径问题】【能得出最短路径的最优解,但由于它遍历计算的节点很多,所以效率低】
迪杰斯特拉(Dijkstra)算法:从一个顶点到其余各顶点的最短路径算法,解决的是有权图中最短路径问题原创 2022-01-29 23:45:00 · 2051 阅读 · 0 评论 -
最短路径算法:维特比算法(Viterbi)(基于动态规划思想)【解决篱笆网络的最短路径问题】【应用场景:分词、命名实体识别、词性标注】【每个节点只保留其来时最优路径】
一、维特比算法(Viterbi Algorithm)讲解方式01:篱笆网络(Lattice)的最短路径问题已知下图的篱笆网络,每个节点之间的数字表示相邻节点之间的距离,举个例子来说,如果我走,这个距离是。那么如果让你从A走到E,最短路径是哪一条呢?显然大家都知道,通过穷举的方法是很容易得到最短路径,可是问题就在于如果穷举的话,需要的加法次数不用算你也知道实在是太多啦(每条路径需要计算次加法,一共条路径共次计算)!像这种没几层的篱笆网络也就罢了,如果每层13个节点,一共12层(然而这个规模对于标注问题来原创 2022-02-05 20:46:46 · 2443 阅读 · 1 评论 -
命名实体识别(NER)-模型评估:词级别评估、实体级别评估【Precision、Recall、F1】
一、概述命名实体识别的评判标准:实体的边界是否正确;实体的类型是否标注正确。主要错误类型包括:文本正确,类型可能错误;反之,文本边界错误,而其包含的主要实体词和词类标记可能正确。对于二分类的模型,预测结果与实际结果分别可以取0和1。我们用N和P代替0和1,T和F表示预测正确和错误。将他们两两组合,就形成了下图所示的混淆矩阵(注意:组合结果都是针对预测结果而言的)。由于1和0是数字,阅读性不好,所以我们分别用P和N表示1和0两种结果。变换之后为PP,PN,NP,NN,阅读性也很差,我并不能轻易地原创 2022-01-28 22:45:00 · 4124 阅读 · 0 评论 -
NLP-信息抽取-NER-2015-BiLSTM+CRF(一):命名实体识别【预测每个词的标签】【评价指标:精确率=识别出正确的实体数/识别出的实体数、召回率=识别出正确的实体数/样本真实实体数】
深度学习-自然语言处理(NLP)-文本预处理:命名实体识别(NER)【BiLSTM/Bert + CRF模型】【第三方NER工具包无法识别专业领域的命名实体,需根据专业名词来训练自用命名实体识别模型】原创 2021-03-27 21:18:26 · 2550 阅读 · 1 评论 -
NLP-信息抽取-NER-2015-BiLSTM+CRF(二):损失函数【BiLSTM+CRF模型适用于:中文分词、词性标注、命名实体识别】
中文分词、命名实体识别、词性标注是自然语言理解中,基础性的工作,同时也是非常重要的工作。在很多NLP的项目中,工作开始之前都要经过这三者中的一到多项工作的处理。在深度学习中,有一种模型可以同时胜任这三种工作,而且效果还很不错,那就是:BiLSTM_CRF。BiLSTM指的是双向LSTM;CRF指的是条件随机场。以命名实体识别为例,我们规定:在数据集中有两类实体,人名和组织机构名称。在数据集中总共有5类标签:B-Person (人名的开始部分)I- Person (人名的中间部分)原创 2022-01-30 15:31:27 · 3711 阅读 · 1 评论 -
NLP-信息抽取-NER-2015-BiLSTM+CRF(三):命名实体识别【实战】
一、项目步骤1、读取数据集数据集共三个文件,训练集,交叉测试集和测试集,文件中每一行包含两个元素,字和标识,每一句话间由一个空格隔开。2、处理数据集更新数据集中的标签【BIO转为BIOSE体系】单独的: B-LOC→S-LOC;两个的:B-LOC,I-LOC→B-LOC,E-LOC;三个的:B-LOC,I-LOC,I-LOC→B-LOC, I-LOC, E-LOC;…给每个char和tag分配一个id,得到一个包含所有字的字典dict,以及char_to_id, id_to_char,原创 2022-05-04 17:37:00 · 715 阅读 · 0 评论 -
NLP-信息抽取-NER-2015:BiLSTM-CRF【Bidirectional LSTM-CRF Models for Sequence Tagging】
NLP-信息抽取-2015:BiLSTM-CRF【Bidirectional LSTM-CRF Models for Sequence Tagging】原创 2021-09-06 01:10:40 · 145 阅读 · 0 评论 -
NLP-信息抽取-NER-2018:LatticeLSTM【Chinese NER Using Lattice LSTM】
NLP-信息抽取-2018:LatticeLSTM【Chinese NER Using Lattice LSTM】原创 2021-09-06 01:13:15 · 223 阅读 · 0 评论 -
NLP-信息抽取-NER-2019:LR-CNN【CNN-Based Chinese NER with Lexicon Rethinking】
NLP-信息抽取-NER-2019:LR-CNN【CNN-Based Chinese NER with Lexicon Rethinking】原创 2021-09-07 22:43:06 · 338 阅读 · 0 评论 -
NLP-信息抽取-NER-2019:LGN【A Lexicon-Based Graph Neural Network for Chinese NER】
NLP-信息抽取-NER-2019:LGN【A Lexicon-Based Graph Neural Network for Chinese NER】原创 2021-09-07 22:46:24 · 339 阅读 · 0 评论 -
NLP-信息抽取-NER-2019:TENER【TENER: Adapting Transformer Encoder for Named Entity Recognition】
NLP-信息抽取-NER-2019:TENER【TENER: Adapting Transformer Encoder for Named Entity Recognition】原创 2021-09-07 22:47:46 · 294 阅读 · 0 评论 -
NLP-信息抽取-NER-2019:Soft-Lexicon【Simplify the Usage of Lexicon in Chinese NER】
NLP-信息抽取-NER-2019:Soft-Lexicon【Simplify the Usage of Lexicon in Chinese NER】原创 2021-09-07 22:49:57 · 869 阅读 · 1 评论 -
NLP-信息抽取-NER-2022:Global Pointer
本文将介绍一个称为GlobalPointer的设计,它利用全局归一化的思路来进行命名实体识别(NER),可以无差别地识别嵌套实体和非嵌套实体,在非嵌套(Flat NER)的情形下它能取得媲美CRF的效果,而在嵌套(Nested NER)情形它也有不错的效果。所以,CRF在理论上确实都存在不大合理的地方,而相比之下,GlobalPointer则更加贴近使用和评测场景:它本身就是以实体为单位的,并且它设计为一个“多标签分类”问题,这样它的损失函数和评价指标都是实体颗粒度的,哪怕只对一部分也得到了合理的打分。原创 2022-09-25 21:23:02 · 2183 阅读 · 0 评论