（2 NLTK学习笔记

最新推荐文章于 2024-03-27 17:18:50 发布

chujiu0

最新推荐文章于 2024-03-27 17:18:50 发布

阅读量223

点赞数

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/chujiu0/article/details/105455851

版权

1、分词
NLTK内置的分词器

from nltk.tokenize import LineTokenizer,SpaceTokenizer,TweetTokenizer
from nltk import word_tokenize

LineTokenizer字符串拆分成行：

lTokenizer=LineTokenizer（）；
print(“output:”, lTokenizer.tokenize(“”))

SpaceTokenizer空格符分词：

rawText=”line…”
sTokenizer= SpaceTokenizer()
print(“output:”, sTokenizer.tokenize(rawText))

TweetTokenizer处理特殊字符

tTokenizer=TweetTokenizer()
print(“output:”,tTokenizer.tokenize(“”))

2、词干提取

from nltk import PorterStemmer,LancasterStemmer,word_tokenize
raw=”line…”   //分词
tokens = word_t

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注