命名实体识别学习总结

Named entity recognition(NER)

1.概念:NER任务是识别提及命名实体的文本范围,并将其分类为预定类别,例如人员,位置,组织等。涉及两个任务:识别、分类。
2.分类:
(1)通用领域:人名地名机构名;
(2)特殊领域:医学、建筑…。
2.主要方式:
(1)基于规则:主要是根据人为设定的模板,以及预定义的领域规则。很明显,这种方式能够得到很高的召回率,但是却损失了精度。
(2)非监督:典型的是聚类。根据领域术语,语料库统计(例如逆文档频率和上下文向量)和浅层语法知识(例如名词短语分块)作为衡量指标。
(3)有监督:将NER看成是多标签的分类问题或者是序列标注。特征工程起到了至关重要的作用。基于这些单词级别的特征,应用机器学习算法:HMM,决策树,SVM,CRF,进行NER。
(4)深度学习:非线性的映射以及对输入数据的隐层语义挖掘表示,节省了对特征设计的开销。

  • 深度学习框架:
  • 输入数据:
  1. Word-level Representation : CBOW and skip-gram
  2. Character-level Representation:利用神经网络。很好的处理了未登录词。
  3. Hybrid Representation:在模型中增加额外的信息。例如:加入已有的餐馆名称,帮助模型识别。最常见的Bi-LSTM+CRF模型,引入字典、标点符号等等附加信息。
  • 编码:
    对句子上下文编码:CNN、RNN。
    CNN可以针对给定的window大小,将单词周围的语义编码。
    RNN序列信息编码,双向的RNN能够综合考虑前向和后向信息
    • tag标记
  1. 根据编码结果进行多标签分类(MLP+softmax)无需考虑上下文标注,每个单词独立计算分类概率。
  2. CRF 基于已经学习到的语义表示进行序列标注。
  3. RNN用作解码器对编码结果进行解码实现序列标注,在数据量大的情况下性能好。
  4. 指针网络:先识别出一句话中的块,然后进行标记,再根据标记的结果输入到指针网络中输出最终序列标注结果。主要是根据与输入序列相对应的离散的token,让RNN学习输出序列的条件概率,让sofrmax作为指针表示可变长度的字典字典。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值