NLTK study note
weixin_42034782
这个作者很懒,什么都没留下…
展开
-
处理原始文本
友情提醒:NLTK study notes 系列均为从本地代码粘贴上来的,粘贴时缩进出现大量错误,敬请注意。 包括以下章节:用正则表达式提取特征、词性规范化、文本分词、分割等 正则表达式提取特征 查找word中的所有元音 import nltk, re word = "supercalifragilistcexpialidocious" re.findall(r'[aeiou...原创 2018-11-30 21:45:42 · 377 阅读 · 0 评论 -
分类和标注词汇
包括以下章节:内置标注器、默认字典、自动标注、n-gram标注 内置标注器 nltk内置词性标注器: 'alice'->('alice', 'NN') text = nltk.word_tokenize("And now for something completely different") text = 'alice' nltk.pos_tag(text) “标注”已标注...原创 2018-12-07 19:40:12 · 322 阅读 · 0 评论