停用词:
在文本处理过程中,被忽略或删除的词汇。这些词汇通常是频繁出现的无实际意义的词语,例如介词、连词、冠词、代词。删去文本中的停用词,可以在训练时节省大量的存储空间和计算资源。
def get_stop_words():
with open(STOP_WORD, encoding="utf-8") as f:
stop_words = [line.strip() for line in f]
return stop_words
代码解释:
- 定义了一个名为get_stop_words的函数。
- 使用with语句打开一个名为STOP_WORD的文件。
- stop_words = []:初始化一个空列表,用于存储从文件中读取的停用词。
- 迭代文件对象f,读取每一行。
- 使用strip()方法去掉每一行开头和结尾的空白字符,包括空格、制表符和换行符。
- 输出stop_words列表。