TF-IDF关键词提取算法

最新推荐文章于 2024-06-14 12:39:34 发布

为援不可图

最新推荐文章于 2024-06-14 12:39:34 发布

阅读量890

点赞数

分类专栏：技术之路文章标签： TD-IDF

技术之路专栏收录该内容

62 篇文章 2 订阅

订阅专栏

参考书目：python自然语言处理实战——核心技术与算法

TF/IDF

基本思想：TF是计算一个词在一篇文档中出现的频率，IDF是一个词在多少篇文档中出现过，显然TF越高证明这个词在这篇文章中的代表性就越强，而INF越低则证明这个词在具有越强的区分能力。因此中和这两个数，就能较好地算出文档的关键词。

关键公式

$tf*idf(i,j)=tf_{ij}*idf_i=\frac{n_{ij}}{\sum _kn_{kj}}*log(\frac{|D|}{1+|D_i|})$

|D_i|是文档中出现词i的文档数量，|D|是文档数

附上书上抄来的代码


 
 
   
   
    
    
   
   
   
   
    
    
     
     import jieba
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     import jieba.posseg 
     
     as psg
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     import math
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     import functools
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     # 停用词表加载方法
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     def get_stopword_list():
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     # 停用词表存储路径，每一行为一个词，按行读取进行加载
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     # 进行编码转换确保匹配准确率
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         stop_word_path = 
     
     './data/stopword.txt'
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         stopword_list = [sw.replace(
     
     '\n', 
     
     '')
    
    
   
   

   
   
    
    
   
   
   
   
    
                         
     
     for sw 
     
     in open(stop_word_path,encoding = 
     
     'utf-8').readlines()]
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     return stopword_list
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     # 分词方法，调用结巴接口
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     def seg_to_list(sentence, pos=False):
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     if 
     
     not pos:
    
    
   
   

   
   
    
    
   
   
   
   
    
            
     
     # 不进行词性标注的分词方法
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             seg_list = jieba.cut(sentence)
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     else:
    
    
   
   

   
   
    
    
   
   
   
   
    
            
     
     # 进行词性标注的分词方法
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             seg_list = psg.cut(sentence)
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     return seg_list
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     # 去干扰词
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     def word_filter(seg_list, pos=False):
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         stopword_list = get_stopword_list()
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         filter_list = []
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     # 根据POS参数选择是否词性过滤
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     # 不进行词性过滤，则将词性都标记为n，表示全部保留
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     for seg 
     
     in seg_list:
    
    
   
   

   
   
    
    
   
   
   
   
    
            
     
     if 
     
     not pos:
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                 word = seg
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                 flag = 
     
     'n'
    
    
   
   

   
   
    
    
   
   
   
   
    
            
     
     else:
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                 word = seg.word
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                 flag = seg.flag
    
    
   
   

   
   
    
    
   
   
   
   
    
            
     
     if 
     
     not flag.startswith(
     
     'n'):
    
    
   
   

   
   
    
    
   
   
   
   
    
                
     
     continue
    
    
   
   

   
   
    
    
   
   
   
   
    
            
     
     # 过滤高停用词表中的词，以及长度<2的词
    
    
   
   

   
   
    
    
   
   
   
   
    
            
     
     if 
     
     not word 
     
     in stopword_list 
     
     and len(word) > 
     
     1:
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                 filter_list.append(word)
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     return filter_list
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     # 数据加载，pos为是否词性标注的参数，corpus_path为数据集路径
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     def load_data(pos=False, corpus_path='./data/corpus.txt'):
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     # 调用上面方法对数据集进行处理，处理后的每条数据仅保留非干扰词
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         doc_list = []
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     for line 
     
     in open(corpus_path, 
     
     'r',encoding = 
     
     'utf-8'):
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             content = line.strip()
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             seg_list = seg_to_list(content, pos)
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             filter_list = word_filter(seg_list, pos)
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             doc_list.append(filter_list)
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     return doc_list
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     def train_idf(doc_list):
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         idf_dic = {}
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     #总文档数
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         tt_count = len(doc_list)
    
    
   
   

   
   
    
    
   
   
   
   
    
        
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     #每个词出现的文档数
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     for doc 
     
     in doc_list:
    
    
   
   

   
   
    
    
   
   
   
   
    
            
     
     for word 
     
     in set(doc):
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                 idf_dic[word] = idf_dic.get(word,
     
     0.0)+
     
     1.0
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     #按公示转换为idf值，分母加一进行平滑处理
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     for k,v 
     
     in idf_dic.items():
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             idf_dic[k]=math.log(tt_count/(
     
     1.0+v))
    
    
   
   

   
   
    
    
   
   
   
   
    
        
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     #对于没有在字典中的词，默认其仅在一个文档中出现，得到默认idf值
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         default_idf = math.log(tt_count/
     
     1.0)
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     return idf_dic,default_idf
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     def cmp(e1,e2):
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     import numpy 
     
     as np
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         res = np.sign(e1[
     
     1]-e2[
     
     1])
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     if res != 
     
     0:
    
    
   
   

   
   
    
    
   
   
   
   
    
            
     
     return res
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     else:
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             a = e1[
     
     0]+e2[
     
     0]
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             b = e2[
     
     0]+e1[
     
     0]
    
    
   
   

   
   
    
    
   
   
   
   
    
            
     
     if a>b:
    
    
   
   

   
   
    
    
   
   
   
   
    
                
     
     return 
     
     1
    
    
   
   

   
   
    
    
   
   
   
   
    
            
     
     elif a == b:
    
    
   
   

   
   
    
    
   
   
   
   
    
                
     
     return 
     
     0
    
    
   
   

   
   
    
    
   
   
   
   
    
            
     
     else:
    
    
   
   

   
   
    
    
   
   
   
   
    
                
     
     return 
     
     -1
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     class TfIdf(object):
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     #统计tf值
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     def get_tf_dic(self):
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             tf_dic = {}
    
    
   
   

   
   
    
    
   
   
   
   
    
            
     
     for word 
     
     in self.word_list:
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                 tf_dic[word] = tf_dic.get(word,
     
     0.0)+
     
     1.0
    
    
   
   

   
   
    
    
   
   
   
   
    
            
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             tt_count = len(self.word_list)
    
    
   
   

   
   
    
    
   
   
   
   
    
            
     
     for k,v 
     
     in tf_dic.items():
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                 tf_dic[k] = float(v)/tt_count
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
            
     
     return tf_dic
    
    
   
   

   
   
    
    
   
   
   
   
    
        
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     #四个参数分别是：训练好的idf字典，默认idf值，处理后的待提取文本，关键词数量
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     def __init__(self,idf_dic,default_idf,word_list,keyword_num):
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             self.word_list = word_list
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             self.idf_dic,self.default_idf = idf_dic,default_idf
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             self.tf_dic  = self.get_tf_dic()
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             self.keyword_num = keyword_num
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     #按公式计算tf_idf
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     def get_tfidf(self):
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             tfidf_dic = {}
    
    
   
   

   
   
    
    
   
   
   
   
    
            
     
     for word 
     
     in self.word_list:
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                 idf = self.idf_dic.get(word,self.default_idf)
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                 tf = self.tf_dic.get(word,
     
     0)
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                 tfidf  = tf*idf
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                 tfidf_dic[word] = tfidf
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
                
     
     #根据tf_idf排序，取排名前keyword_num的词作为关键词
    
    
   
   

   
   
    
    
   
   
   
   
    
            
     
     for k ,v 
     
     in sorted(tfidf_dic.items(),key=functools.cmp_to_key(cmp),reverse=
     
     True)[:self.keyword_num]:
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                 print(k+
     
     "/",end=
     
     '')
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             print()
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     def tfidf_extract(word_list, pos=False, keyword_num=10):
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         doc_list = load_data(pos)
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         idf_dic, default_idf = train_idf(doc_list)
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         tfidf_model = TfIdf(idf_dic, default_idf, word_list, keyword_num)
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         tfidf_model.get_tfidf()
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     if __name__ == 
     
     '__main__':
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         text = 
     
     '6月19日,《2012年度“中国爱心城市”公益活动新闻发布会》在京举行。' + \
    
    
   
   

   
   
    
    
   
   
   
   
    
               
     
     '中华社会救助基金会理事长许嘉璐到会讲话。基金会高级顾问朱发忠,全国老龄' + \
    
    
   
   

   
   
    
    
   
   
   
   
    
               
     
     '办副主任朱勇,民政部社会救助司助理巡视员周萍,中华社会救助基金会副理事长耿志远,' + \
    
    
   
   

   
   
    
    
   
   
   
   
    
               
     
     '重庆市民政局巡视员谭明政。晋江市人大常委会主任陈健倩,以及10余个省、市、自治区民政局' + \
    
    
   
   

   
   
    
    
   
   
   
   
    
               
     
     '领导及四十多家媒体参加了发布会。中华社会救助基金会秘书长时正新介绍本年度“中国爱心城' + \
    
    
   
   

   
   
    
    
   
   
   
   
    
               
     
     '市”公益活动将以“爱心城市宣传、孤老关爱救助项目及第二届中国爱心城市大会”为主要内容,重庆市' + \
    
    
   
   

   
   
    
    
   
   
   
   
    
               
     
     '、呼和浩特市、长沙市、太原市、蚌埠市、南昌市、汕头市、沧州市、晋江市及遵化市将会积极参加' + \
    
    
   
   

   
   
    
    
   
   
   
   
    
               
     
     '这一公益活动。中国雅虎副总编张银生和凤凰网城市频道总监赵耀分别以各自媒体优势介绍了活动' + \
    
    
   
   

   
   
    
    
   
   
   
   
    
               
     
     '的宣传方案。会上,中华社会救助基金会与“第二届中国爱心城市大会”承办方晋江市签约,许嘉璐理' + \
    
    
   
   

   
   
    
    
   
   
   
   
    
               
     
     '事长接受晋江市参与“百万孤老关爱行动”向国家重点扶贫地区捐赠的价值400万元的款物。晋江市人大' + \
    
    
   
   

   
   
    
    
   
   
   
   
    
               
     
     '常委会主任陈健倩介绍了大会的筹备情况。'
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         pos = 
     
     True
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         seg_list = seg_to_list(text, pos)
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         filter_list = word_filter(seg_list, pos)
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         print(
     
     'TF-IDF模型结果：')
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         tfidf_extract(filter_list)

TextRank

基本思路：每个词将自己的分数平均投给附近的词，迭代至收敛或指定次数即可，初始分可以打1

附上代码


 
 
   
   
    
    
   
   
   
   
    
    
     
     def get_stopword_list():
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         path = 
     
     './data/stop_words.utf8'
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         stopword_list = [sw.replace(
     
     '\n',
     
     '') 
     
     for sw 
     
     in open(path,
     
     'r',encoding=
     
     'utf8').readlines()]
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     return stopword_list
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     def seg2list(text):
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     import jieba
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     return jieba.cut(text)
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     def word_filter(seg_list):
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         stopword_list = get_stopword_list()
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         filter_list = []
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     for w 
     
     in seg_list:
    
    
   
   

   
   
    
    
   
   
   
   
    
            
     
     if 
     
     not w 
     
     in stopword_list 
     
     and len(w)>
     
     1:
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                 filter_list.append(w)
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     return filter_list
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     str = 
     
     '6月19日,《2012年度“中国爱心城市”公益活动新闻发布会》在京举行。' + \
    
    
   
   

   
   
    
    
   
   
   
   
    
               
     
     '中华社会救助基金会理事长许嘉璐到会讲话。基金会高级顾问朱发忠,全国老龄' + \
    
    
   
   

   
   
    
    
   
   
   
   
    
               
     
     '办副主任朱勇,民政部社会救助司助理巡视员周萍,中华社会救助基金会副理事长耿志远,' + \
    
    
   
   

   
   
    
    
   
   
   
   
    
               
     
     '重庆市民政局巡视员谭明政。晋江市人大常委会主任陈健倩,以及10余个省、市、自治区民政局' + \
    
    
   
   

   
   
    
    
   
   
   
   
    
               
     
     '领导及四十多家媒体参加了发布会。中华社会救助基金会秘书长时正新介绍本年度“中国爱心城' + \
    
    
   
   

   
   
    
    
   
   
   
   
    
               
     
     '市”公益活动将以“爱心城市宣传、孤老关爱救助项目及第二届中国爱心城市大会”为主要内容,重庆市' + \
    
    
   
   

   
   
    
    
   
   
   
   
    
               
     
     '、呼和浩特市、长沙市、太原市、蚌埠市、南昌市、汕头市、沧州市、晋江市及遵化市将会积极参加' + \
    
    
   
   

   
   
    
    
   
   
   
   
    
               
     
     '这一公益活动。中国雅虎副总编张银生和凤凰网城市频道总监赵耀分别以各自媒体优势介绍了活动' + \
    
    
   
   

   
   
    
    
   
   
   
   
    
               
     
     '的宣传方案。会上,中华社会救助基金会与“第二届中国爱心城市大会”承办方晋江市签约,许嘉璐理' + \
    
    
   
   

   
   
    
    
   
   
   
   
    
               
     
     '事长接受晋江市参与“百万孤老关爱行动”向国家重点扶贫地区捐赠的价值400万元的款物。晋江市人大' + \
    
    
   
   

   
   
    
    
   
   
   
   
    
               
     
     '常委会主任陈健倩介绍了大会的筹备情况。'
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     win={}
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     seg_list = seg2list(str)
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     filter_list = word_filter(seg_list)
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     #构建投分表，根据窗口
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     for i 
     
     in range(len(filter_list)):
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     if filter_list[i] 
     
     not 
     
     in win.keys():
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             win[filter_list[i]]=set()
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     if i
     
     -5 < 
     
     0:
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             lindex = 
     
     0
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     else:
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             lindex = i
     
     -5
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     for j 
     
     in filter_list[lindex:i+
     
     5]:
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             win[filter_list[i]].add(j)
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     # 投票
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     time = 
     
     0
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     score = {w:
     
     1.0 
     
     for w 
     
     in filter_list}
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     while(time<
     
     50):
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     for k,v 
     
     in win.items():
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             s = score[k]/len(v)
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
             score[k] = 
     
     0
    
    
   
   

   
   
    
    
   
   
   
   
    
            
     
     for i 
     
     in v:
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                 score[i]+=s
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         time+=
     
     1
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     l = sorted(score.items(), key=
     
     lambda score:score[
     
     1],reverse=
     
     True)
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     print(l)

				<script>
					(function(){
						function setArticleH(btnReadmore,posi){
							var winH = $(window).height();
							var articleBox = $("div.article_content");
							var artH = articleBox.height();
							if(artH > winH*posi){
								articleBox.css({
									'height':winH*posi+'px',
									'overflow':'hidden'
								})
								btnReadmore.click(function(){
									articleBox.removeAttr("style");
									$(this).parent().remove();
								})
							}else{
								btnReadmore.parent().remove();
							}
						}
						var btnReadmore = $("#btn-readmore");
						if(btnReadmore.length>0){
							if(currentUserName){
								setArticleH(btnReadmore,3);
							}else{
								setArticleH(btnReadmore,1.2);
							}
						}
					})()
				</script>
				</article>

为援不可图

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
TF-IDF关键词提取算法

参考书目：python自然语言处理实战——核心技术与算法TF/IDF基本思想：TF是计算一个词在一篇文档中出现的频率，IDF是一个词在多少篇文档中出现过，显然TF越高证明这个词在这篇文章中的代表性就越强，而INF越低则证明这个词在具有越强的区分能力。因此中和这两个数，就能较好地算出文档的关键词。关...
复制链接

扫一扫

专栏目录