中文去停用词

最新推荐文章于 2023-09-27 23:19:50 发布

shandler

最新推荐文章于 2023-09-27 23:19:50 发布

阅读量893

点赞数

本文链接：https://blog.csdn.net/shandler/article/details/108791791

版权

input：

import jieba
#stopwords = {}.fromkeys([ line.rstrip() for line in open('stopword.txt') ])
stopwords = {}.fromkeys(['的', '附近'])
segs = jieba.cut('北京附近的租房', cut_all=False)
final = []
for seg in segs:
    if seg not in stopwords:
            final.append(seg)
final

out：

['北京', '租房']

----------------------------------------------- 分割线 -------------------------------------------------
imput：

segs = jieba.cut('北京附近的租房', cut_all=False)
for seg in segs:
    print(seg)
segs

out：

北京
附近
的
租房
<generator object Tokenizer.cut at 0x0000017EDFE641C8>

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

shandler

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
中文去停用词

import jieba#stopwords = {}.fromkeys([ line.rstrip() for line in open('stopword.txt') ])stopwords = {}.fromkeys(['的', '附近'])segs = jieba.cut('北京附近的租房', cut_all=False)final = []for seg in segs: if seg not in stopwords: final.append(seg)
复制链接

扫一扫