NLTK学习笔记——信息抽取(1)

信息抽取的内容在《Natural Language Processing》第7章,对于文本的信息抽取,命名实体及其关系的识别是至关重要要的,信息抽取分为以下几个步骤:
1. 文本切分,将string类型的文本划分为list类型的句子
2. 句子切分,将每个list类型的句子划分成由单词或chunk组成的list
3. 词性标注,生成由一个list,其组成内容是多个形如(word,lable)的tuple
4. 命名实体识别,生成各个tree组成一个list
5. 关系识别,生成一个list,其内容是多个形如(entity,relation,entity)的tuple

在tree的构成中,分块是个重要的过程,如NP(DT,JJ,JJ,NN)可构成一个NP短语。nltk中有重要的类是RegexpParser,分析预先定义的分块语法grammar,得到多个语法规则,然后利用parser函数对句子分析,得到语法树。下面就介绍一个RegexpParser分析grammar的过程和parser函数的解析过程。

  • RegexpParser类

调用:cp=nltk.RegexpParser(grammar)
输入:分块语法grammar,有一个或多个识别块信息的正则表达式,如:

grammar = r"""
    NP: {<.*>*}             # start by chunking everything
    }<[\.VI].*>+{       # chink any verbs, prepositions or periods
    <.*>}{<DT>        
  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值