nlp 停用词处理java_NLP入门:文本预处理(一)停用词

本文介绍了在Java中进行NLP文本预处理的第一步——去除停用词。通过从指定链接获取停用词文本,并实现读取、合并多个停用词列表的功能,为后续的文本分析做准备。
摘要由CSDN通过智能技术生成

文本预处理——去停用词

停用词文本可以从https://pan.baidu.com/s/1q21hIK95QU9qDstptd8V8g 自提,不谢

该停用词文本转自https://blog.csdn.net/FontThrone/article/details/74200026,自己还未创建新的停用词,后续更新。。。。

# - * - coding: utf - 8 -*-

import sys

# 获取停用词的List

def GetListOfStopWords(filepath):

f_stop = open(filepath, encoding='utf-8')

try:

f_stop_text = f_stop.read()

finally:

f_stop.close()

f_stop_seg_list = f_stop_text.split('\n')

return f_stop_seg_list

# 保存List

# def SaveFile(list, filename):

# f_stop = open(filename, 'w', encoding='utf-8')

# for item in range(len(list)):

# if item != len(list):

# f_stop.writelines((list[item].encode('utf-8')) + '\n')

# else:

# f_stop.writelines(list[item].encode('utf-8'

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值