python命名实体抽取学习记录(1)

一、命名实体识别基本概念    

      信息有多种表现形式,一个重要的形式就是结构化数据:即实体和关系的规范和可预测的组织。而现实生活中大多数自然语言句子是非结构化数据,为从文本获得其意义,我们首先需要将自然语言数据转化为结构化数据,然后利用强大的查询工具,如sql。这种从文本获取意义的方法被称为信息提取。

    文本信息提取处理的顺序是:首先,使用句子分割器将该文档的原始文本分割成句,然后使用分词器将每个句子进一步细分为词,之后对每个句子进行词性标注,对每个标注过的句子进行命名实体识别,最后使用关系识别搜索文本中不同实体间可能的关系。所以在对文档进行命名实体识别之前必须对文档进行分句,分词和词性标注。在命名实体识别中,我们需要分割和标注可能组成具有某种关系的实体,通常是名词短语。

    命名实体识别(Named Entity Recognition)主要是识别出文本中出现的专有名称和有意义的数量短语并进行分类。命名实体(Named Entity )主要包括实体(组织名,人名,地名)、时间表达式(日期、时间)和数字表达式(货币值、百分数等)。其中,对时间表达式和数字表达式的识别相对于对组织名,人名和地名这些实体的识别来说要简单些,因为时间表达式和数字表达式在形式上有规律可循,而针对组织名,人名和地名,由于其具有开放性和发展性的特点,识别难度比较大。

    目前已有的命名实体识别的方法主要分为两大类:基于规则的方法和基于统计的方法。

    基于规则的方法主要是根据待识别的命名实体的语言学上的表现形式,人为设定一些规则来识别命名实体的方法。这类方法实现的效果很大程度上依赖于规则的设定且需要大量的专业知识,而且因为不同领域内的实体具有不同的规则,所以对每个新领域的文本处理都要重新设定规则。使用基于规则的方法来进行命名实体识别比较消耗时间和消耗人力。  

      基于统计的方法主要利用原始的或经过加工的(人工标注的)语料进行训练,其语料的加工(标注)不需要非常多的语言学的知识,而且小规模的语料可以在可接受的时间和人力代价下完成,且基于统计的方法实现的命名实体识别在新的领域使用时可以不作改动或者做较少的改动,只需要利用新领域的语料进行训练即可。但是由于基于统计的方法获取的概率知识不如基于规则的方法所具有的专家的语言学知识的可靠性,所以基于统计的命名实体识别系统的性能要比基于规则的命名实体识别的性能要低。用于命名实体识别的基于统计的方法主要有:N元模型、隐马尔克夫模型(HMM)、最大熵模

  • 10
    点赞
  • 74
    收藏
    觉得还不错? 一键收藏
  • 7
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值