NLTK

NLTK学习笔记

>>> import nltk
>>> sentence = """At eight o'clock on Thursday morning
... Arthur didn't feel very good."""
>>> tokens = nltk.word_tokenize(sentence)
>>> tokens
['At', 'eight', "o'clock", 'on', 'Thursday', 'morning', 'Arthur', 'did', "n't", 'feel', 'very', 'good', '.']
>>> tagged = nltk.pos_tag(tokens)
>>> tagged[0:6]
[('At', 'IN'), ('eight', 'CD'), ("o'clock", 'NN'), ('on', 'IN'), ('Thursday', 'NNP'), ('morning', 'NN')]
>>> entities = nltk.chunk.ne_chunk(tagged)
>>> entities
Tree('S', [('At', 'IN'), ('eight', 'CD'), ("o'clock", 'NN'), ('on', 'IN'), ('Thursday', 'NNP'), ('morning', 'NN'), Tree('PERSON', [('Arthur', 'NNP')]), ('did', 'VBD'), ("n't", 'RB'), ('feel', 'VB'), ('very', 'RB'), ('good', 'JJ'), ('.', '.')])
>>> from nltk.corpus import treebank
>>> t = treebank.parsed_sents('wsj_0001.mrg')[0]
>>> t.draw()
>>>

```python
>>> tagged = nltk.pos_tag(tokens)
>>> tagged[0:6]
[('At', 'IN'), ('eight', 'CD'), ("o'clock", 'NN'), ('on', 'IN'), ('Thursday', 'NNP'), ('morning', 'NN')]

这里的pos_tag词汇级别分类如下
CC - 并列连词 and, or
IN - 介词或者从属连词(after, as long as, as though)
CD - 基数词 one, two,
DT - 限定词(the, some, my)
PDT - 前置限定词(both, a lot of)
EX - 存在词(there)
FW - 外来词
RP - 小品词(与动词构成短语动词的副词或介词 look for, take off)
SYM - 符号
TO - to
UH - 感叹词(yes)
LS - 列表标记
MD - 情态动词

JJ - 形容词 several, nice
JJR - 形容词比较级
JJS - 形容词最高级

NN - 名词,单数
NNS -名词,复数
NNP - 专有名词,单数
NNPS - 专有名词,复数

POS - 所有格结尾(-’s)
PRP - 人称代词(they, you)
PRP$ - 所有格代名词(your, his)

RB - 副词
RBR - 副词的比较级
RBS - 副词的最高级

VB - 动词原形
VBD - 动词过去式
VBG - 动名词或现在分词
VBN - 动词过去分词
VBP - 动词,非第三人称单数现在式
VBZ - 动词,第三人称单数现在式

WDT - wh-限定词(which)
WP - wh-代名词(what)
WP$ - 所有格的wh-代名词(whose)
WRB - wh-副词(where, why)
详见:https://blog.csdn.net/rk2900/article/details/24321965

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值