python:TF-IDF计算

本文介绍了如何使用Python自编TF-IDF算法,以理解其内部工作原理。通过参考相关博客详细讲解了算法思路,并给出了初步代码实现。计算结果用于后续的文本相似度分析。
摘要由CSDN通过智能技术生成

在构建语料库的时候,把每篇文献的关键词抽取出来,接下来是要利用语料库计算文本特征,打算从TF-IDF和拓扑特征两个角度计算,再将二者合并在一起,计算文献之间的相似度。
目前拓扑特征还在无限当机中…TF-IDF的概念很熟悉网上也有很多现成的代码,之前查资料的时候看到已经有现成的包可以之间计算TF-IDF,但是我个人觉得用自己编写内部机理可能更加自如吧~
重点计算的原理参考链接是:https://blog.csdn.net/zhb_bupt/article/details/40985831#commentBox
博文里面有很详细的算法实现的思路(在TF-IDF算法模块那一节)
结合我自己的需要,我的初步代码如下:

import math
def TFIDF(import_url,export_url,*words):
    #export_url是为了需要把计算结果写出来用,看后续需要,初步代码中没有这个部分
    data_source=open(import_url,'r')
    data=data_source.readline()
    word_in_afile_stat={
    }
    word_in_allfiles_stat={
    }
    files_num=0
    while(data!=""):
        data_temp_1=[]
        data_temp_2=[]
        data_temp_1=data.split("\t")
        data_temp_2=data_temp_1[1].split(
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值