python （tfidf的计算与输出）

最新推荐文章于 2022-08-30 08:45:08 发布

羊咩咩咩咩咩

最新推荐文章于 2022-08-30 08:45:08 发布

阅读量637

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/lovexyyforever/article/details/120407305

版权

python 专栏收录该内容

17 篇文章 1 订阅

订阅专栏

tfidf做为计算每个词在文件中的频率，可以过滤掉常见词语，保留重要词语

在编程中可以使用jieba包自带的方法进行计算

import jieba.analyse
test1 =""
fencilist=[]
with open(r"testtxt",'r',encoding="UTF-8") as test:
    for line in test:
        line.strip()
        test1+=line
fencilist=jieba.cut(test1)
fencilist=list(set(fencilist))
with open(r"fenciescult",'w',encoding="UTF-8") as f:
    for i in fencilist:
        f.write(i+'\n')
tfidf=[]
tfidf.append(jieba.analyse.extract_tags(test1,len(fencilist),True,allowPOS="a"))
dict=dict(jieba.analyse.extract_tags(test1,len(fencilist),True,allowPOS="a"))
with open("tfidf","a",encoding="UTF-8") as tfidf:
    for key,values in dict.items():
        tfidf.write(key+str(values)+"\n")

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

羊咩咩咩咩咩

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python （tfidf的计算与输出）

tfidf做为计算每个词在文件中的频率，可以过滤掉常见词语，保留重要词语在编程中可以使用jieba包自带的方法进行计算import jieba.analysetest1 =""fencilist=[]with open(r"testtxt",'r',encoding="UTF-8") as test: for line in test: line.strip() test1+=linefencilist=jieba.cut(test1)fencil
复制链接

扫一扫