序列标注
介绍一些序列标注相关的任务,包括分词、词性标注、命名实体识别(实体抽取)等,方法模型,前沿动态。
CoreJT
中科院自动化所在读直博生,感兴趣的研究方向:文本分类、情感分析、机器阅读理解与问答系统以及对话系统。
展开
-
序列标注 | (9) 中文分词评价指标(续)
上一篇博客我们介绍了中文分词的一些评价指标,包括Precision、Recall、F1-score、OOVRecall和IVRecall。本篇博客我们将继续介绍一些其他的评价指标:柔性评测方案。由于中文分词还没有形成一个公认的分词标准,服务于不同目的的分词系统会对分词单位有不同的要求,进而导致同一文本可能被不同的人划分为几种不同的分词结果。为了能够对各类分词系统进行公正的评价,可以使用一种柔性的评测方案[1],而不是使用闭集测试方法的准确率,召回率等完全匹配的评测指标。具体的,我们首先将分词工具预测的分词转载 2020-06-05 10:59:57 · 925 阅读 · 0 评论 -
序列标注 | (8) 中文分词评估指标
原文地址1. 背景NLP中一个最基本任务就是分词,当我们分词完成之后怎么来评判分词结果的好坏呢?换句话来说就是我该如何对分词结果打分?这个分数怎么算法,依照的标准是什么?例如:对于分词一和分词二的打分应该是多少呢?为了搞清楚这个问题,我们先来学习(回顾)一些机器学习中的常见分类评估标准。2. 机器学习中的分类评估准确率准确率(accuracy),是一个用来衡量分类器预测结果与真实结果差异的一个指标,越接近于1说明分类结果越准确。举个例子,比如现在有一个猫狗图片分类器对100张图片进行分类,分转载 2020-06-02 09:55:31 · 2221 阅读 · 0 评论 -
序列标注 | (7) 融入字典知识的神经中文分词
文章目录融入字典知识的神经中文分词一、背景二、 主要方法融入字典知识的神经中文分词一、背景当前基于深度神经网络的中文分词方法直接从标注样本/句子中学习相关信息,缺乏处理稀有词以及和训练集来自不同领域的数据的能力。OOV(Out-of-vocabulary)问题是监督学习最主要的问题。例如,中文句子“人工智能最近很火”,它的正确分割是“人工智能/最近/很火”。然而,如果“人工智能”没有出现在标注数据中或仅仅出现了几次,那么将有很大的概率该句子会被分割为“人工/智能/最近/很火”,因为“人工”和“智能”原创 2020-05-22 16:58:08 · 887 阅读 · 0 评论 -
序列标注 | (6) 多标准中文分词
文章目录多标准中文分词一、背景二、主要方法多标准中文分词一、背景中文分词中文分词是中文自然语言处理的基础任务,旨在辨别由连续字符组成的中文句子中的词边界。大多数方法把中文分词转换为一个基于字符的序列标注问题,其中输入句子中的每个字符被标注为一个标签用以表示它在目标词中的位置。多标准中文分词尽管一些基于神经网络的中文分词方法取得了很大的进步,但是这些方法严重依赖于大规模高质量的标注语料库。而构建高质量中文分词标注语料库有两个主要挑战:1)需要语言学专家,代价非常高;2)基于不同的语言学观点会产生原创 2020-05-21 17:28:18 · 1507 阅读 · 1 评论 -
序列标注 | (5) 命名实体识别技术综述
本文是对 《命名实体识别技术综述》的摘录和笔记。论文链接文章目录1. 简介2. 研究难点3. 主要方法4. 研究热点5. 数据集和评价指标6. 参考文献1. 简介命名实体识别(NER)的目的是识别文本中的命名实体(边界)并将其归纳到相应的实体类型中。一般的实体类型包括人名、地名、组织机构名、日期等。NER的主要难点在于领域命名实体识别的局限性(如军事领域命名实体识别等)、命名实体表述的多样性和歧义性、命名实体的复杂性和开放性。NER的研究进程从最初的规则字典方法到统计机器学习方法,再到目前的深度原创 2020-05-15 22:49:48 · 4587 阅读 · 0 评论 -
序列标注 | (4) Hierarchically-Refined Label Attention Network for Sequence Labeling
本篇博客中我将分享一篇EMNLP2019序列标注相关的论文:《Hierarchically-Refined Label Attention Network for Sequence Labeling》。论文下载链接开源代码前言如果你已经看过了序列标注专栏前面的三篇文章,相信你已经对序列标注问题有了一定了解,本专栏的第四篇博客,我将介绍一下这篇论文。NLP中很多任务都可以转换为序列标注问题,...原创 2020-04-08 18:24:45 · 2912 阅读 · 4 评论 -
序列标注 | (3) NER入门+BiLSTM-CRF模型原理+Pytorch代码详解(资料汇总)
原文地址最近在系统地接触学习NER(命名实体识别/实体抽取),但是发现这方面的小帖子还比较零散。所以我把学习的记录放出来给大家作参考,其中汇聚了很多其他博主的知识,在本文中也放出了他们的原链。希望能够以这篇文章为载体,帮助其他跟我一样的学习者梳理、串起NER的各个小知识点,最后上手NER的主流模型(Bilstm+CRF)。全文结构一、NER资料二、主流模型Bilstm-CRF实现详解(Py...转载 2020-04-06 14:51:14 · 10671 阅读 · 3 评论 -
序列标注 | (2) 用命名实体识别(NER)解释CRF (BiLSTM+CRF)
原文地址看了许多的CRF的介绍和讲解,这个感觉是最清楚的,结合实际的应用场景,让你了解CRF的用处和用法。本篇文章包括:**介绍:**在BiLSTM顶层上使用CRF层用于命名实体识别任务的总体思想详细的例子: 一个例子,解释CRF层是如何逐步工作的Chainer实现: CRF层的Chainer实现预备知识你需要知道的惟一的事情是什么是命名实体识别(实体抽取)。如果你不知道神经网络...转载 2020-04-05 14:34:13 · 4794 阅读 · 0 评论 -
序列标注 | (1) 序列标注问题概述
原文地址 序列标注问题是自然语言中最常见的问题,在深度学习火起来之前,常见的序列标注问题的解决方案都是借助于HMM模型,最大熵模型,CRF模型。尤其是CRF,是解决序列标注问题的主流方法。随着深度学习的发展,RNN在序列标注问题中取得了巨大的成果。而且深度学习中的end-to-end,也让序列标注问题变得更简单了。序列标注问题包括自然语言处理中的分词,词性标注,命名实体识别(实体抽取),关键词...转载 2020-04-02 20:44:43 · 4335 阅读 · 0 评论