如何找到包含自然语言工具包(nltk)使用的所有可能pos标记的列表?
这本书有一个注释,说明如何在标签集上寻求帮助,例如:
nltk.help.upenn_tagset()
其他人可能相似。 (注意:为此,也许您首先必须从下载助手的"模型"部分下载tagsets)
现在我很好奇:这有什么神秘之处?我从来没有真正使用过NLTK,找到答案就花了我五分钟的时间进行谷歌搜索和搜索……它真的那么隐藏吗?
我认为这不是隐藏的问题,这也是我试图标记单个句子的原因,因为我正在寻找nltk将我的动词标记为名词的原因,而我不知道如何使用不同的标记集。这也对此有所帮助,谢谢!
为了节省一些时间,这是我从一个小型语料库中提取的列表。我不知道它是否完整,但是它应该具有upenn_tagset中的大多数(如果不是全部)帮助定义...
CC:合奏,协调
& 'n and both but either et for less minus neither nor or plus so
therefore times v. versus vs. whether yet
CD:数字,基数
mid-1890 nine-thirty forty-two one-tenth ten million 0.5 one forty-
seven 1987 twenty '79 zero two 78-degrees eighty-four IX '60s .025
fifteen 271,124 dozen quintillion DM2,000 ...
DT:确定者
all an another any both del each either every half la many much nary
neither no some such that the them these this those
例如:存在存在
there
IN:介词或连词,从属
astride among uppon whether out inside pro despite on by throughout
below within for towards near behind atop around if like until below
next into if beside ...
JJ:形容词或数字,序数
third ill-mannered pre-war regrettable oiled calamitous first separable
ectoplasmic battery-powered participatory fourth still-to-be-named
multilingual multi-disciplinary ...
JJR:形容词,比较
bleaker braver breezier briefer brighter brisker broader bumper busier
calmer cheaper choosier cleaner clearer closer colder commo