文本分类例子下载 nltk 包方法

最新推荐文章于 2024-07-08 16:14:38 发布

qq_41672744

最新推荐文章于 2024-07-08 16:14:38 发布

阅读量351

点赞数

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/qq_41672744/article/details/103222670

版权

本文介绍了如何在Python中使用nltk库准备机器学习的文本分类数据集，包括处理空值并使用平均值填充。

摘要由CSDN通过智能技术生成

import nltk
import ssl
try:
     _create_unverified_https_context = ssl._create_unverified_context
except AttributeError:
        pass
else:
    ssl._create_default_https_context = _create_unverified_https_context

nltk.download()

再输入需要的包



#一个完整文本分类流程

#using NLTK library, we can do lot of text preprocesing
import nltk
from nltk.tokenize import word_tokenize
#function to split text into word
tokens = word_tokenize("The quick brown fox jumps over the lazy dog")
nltk.download('stopwords')
print(tokens)


from nltk.corpus import stopwords
stop_words = set(stopwords.words(‘english’))
tokens = [w for w in tokens if not w in stop_words]
print(tokens)


#NLTK provides several stemmer interfaces like Porter stemmer, #Lancaster Stemmer, Snowball Stemmer
from nltk.stem.porter import PorterStemmer
porter = PorterStemmer()
stems &