tf-idf使用-提取文章关键词-搜索文章

最新推荐文章于 2024-03-13 20:03:34 发布

EastWR

最新推荐文章于 2024-03-13 20:03:34 发布

阅读量2.4k

点赞数

分类专栏：机器学习 nlp python 文章标签： NLP

本文链接：https://blog.csdn.net/u011327333/article/details/78730872

版权

tf-idf 使用

我们的目标是提取一篇文章中的关键词 or 给出关键词，在语料库中找到这组关键词最相近的文章。两个目标要解决的问题是差不多的。今天用一种很简单却很有效的方法来解决这个问题， TF-IDF。在本文，我们选取第二种描述，即给出关键词，在语料库中找到与这组关键词最相近的文章。

TF，Term Frequency 词频，表示词语在一篇文章中出现的频数。TF值越大，表示这个词在该篇文章中出现的频数约大。但是如果仅仅根据数量来判断一个词是否为关键词，显然是不够的。例如[1]，在文章中“的”，“是”这样的词往往数量很大，但却不是我们想要的关键词，这样的词称为停用词。（Stop words）。为了解决这个问题，于是引入了 IDF。

IDF Inverse Document Frequency。逆文档频率，它表示一个词的区分程度大小。一个词的 IDF 值越大，表示这个词越重要。本文就不列举公式了，想看公式的同学请参考引文阮一峰老师的文章。

本文的主要目标是实现一个demo。

有了TF（数量）和IDF（权重）
我们将二者相乘，就可以比较合理的衡量一个词重要性。TF-IDF

import numpy as np
import math

file_dir = 'input/tf_idf_data.txt' # 数据在文尾给出
docid2content = {} # int - list
word2id = {} # str-int
id2word = {} # int-str
word_id = 0

with open(file_dir, 'r') as f:
    doc_id = 0
    for line in f.readlines():
        seg = line.strip('\n').split(' ')
        docid2content[doc_id] = seg
        doc_id += 1
        for word in seg:
            # 自定义词典
            if word not in word2id:
                word2id[word] = word_id
                id2word[word_id] = word
                word_id += 1

n_doc = len(docid2content)
n_word = len(word2id)
print('Document length = %d' % n_doc)
print('Unique word number = %d' % n_word)

Document length = 148
Unique word number = 20035

# V 词典词数量， M 文档数量

# 统计词频 - Term Frequency
word_tf_VM = np.zeros(shape=[n_word, n_doc])
for doc_i

最低0.47元/天解锁文章

EastWR

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
tf-idf使用-提取文章关键词-搜索文章

tf-idf 使用我们的目标是提取一篇文章中的关键词 or 给出关键词，在语料库中找到这组关键词最相近的文章。两个目标要解决的问题是差不多的。今天用一种很简单却很有效的方法来解决这个问题， TF-IDF。在本文，我们选取第二种描述，即给出关键词，在语料库中找到与这组关键词最相近的文章。TF，Term Frequency 词频，表示词语在一篇文章中出现的频数。TF值越大，表示这个词在该篇文章中出现的
复制链接

扫一扫