人工智能 – NLP:文本去掉停用词stopwords
前言
为了彻底搞懂过程本质,本博文写的非常细!
说明:本文内容分两部分:
先从 1.分析过程。以一个字符串str = "的,,,大家好,天宫一号我们年,&*'-"为例说明。再以 2.封装成普遍使用的函数。来实战处理文本./data/sports_news.csv ----- 字符串列表遍历
1、分析过程
(1)准备停用词
import pandas as pd
import jieba
"""
1.准备停用词
"""
stopwords = pd.read_csv("data/stopwords.txt", index_col=False, quoting=3, sep='\t', names=['word'], encoding='utf-8')
print(stopwords.head(5), '\n')
print(stopwords['word'].head(5), '\n')
print(stopwords['word'].values)
print('类型是:', type(stopwords['word'].values), '\n')
print(stopwords['word'].tolist())
print('类型是:', ty