文本预处理1.分词
总结了nltk包中不同的分词工具
from nltk.tokenize import LineTokenizer, SpaceTokenizer,TweetTokenizer
from nltk import word_tokenize
以上是四种不同类型的分词器。下面我们将逐一介绍它们。
①.LineTokenizer
LineTokenizer的作用是将输入的字符串通过换行符拆分成行。
lTokenizer=LineTokenizer()
lTokenizer.tokenize('字符串')
②SpaceTokenizer
SpaceTokenizer根据空格符进行分词
sTokenizer=SpaeceTokenizer()
sTokenizer.tokenize('字符串')
③TweetTokenizer
TweetTokenizer用于处理特殊字符串,可以完整的保留特殊字符串。
④word_tokenize
work_tokenize('字符串')