您正在寻找的技术称为语言学和计算的多个子领域或子子领域的多个名称.
>关键酶切提取
>分块
>从自然语言处理,它也叫浅析解,
阅读史蒂夫·阿布尼(Steve Abney)关于如何发展的工作:http://www.vinartus.net/spa/90e.pdf
主要的NLP框架和工具包应该有它们(例如OpenNLP,GATE,NLTK *(请注意,NLTK的默认块仅适用于名称实体))
>斯坦福NLP也有一个:http://nlp.stanford.edu/projects/shallow-parsing.shtml
我将举一个NLTK中的NE块的例子:
>>> from nltk import word_tokenize, ne_chunk, pos_tag
>>> sent = "A survey of user opinion of computer system response time"
>>> chunked = ne_chunk(pos_tag(word_tokenize(sent)))
>>> for i in chunked:
... print i
...
('A', 'DT')
('survey', 'NN')
('of', 'IN')
('user', 'NN')
('opinion', 'NN')
('of', 'IN')
('computer',