中文文本中的关键字提取算法总结

0.关键词提取
  • 定义:从文本中把与这篇文章意义最相关的一些词语抽取出来。
  • 应用:在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用,它不仅是进行这些工作不可或缺的基础和前提,也是互联网上信息建库的一项重要工作。
1.关键词抽取的方法-----主要有两种
  • 关键词分配:给定一个已有的关键词库,对于新来的文档从该词库里面匹配几个词语作为这篇文档的关键词。
  • 关键词提取:针对新文档,通过算法分析,提取文档中一些词语作为该文档的关键词。目前。大多数应用领域的关键词抽取算法都是基于第二种方法实现的,因为第二种方法在实际应用中更准确。
2.基于TF-IDF算法进行关键词提取
  • 在信息检索理论中,TF-IDF是(Term Frequency-Inverse Document Frequency)的简写。TF-IDF是一种数值统计,用来反映一个词语对于语料中某篇文档的重要性。在信息检索和文本挖掘领域,它经常用于因子加权。TF-IDF的主要思想:如果某个词在一篇文档中出现的频率越高,即TF越高;并且在语料库中其他文档中很少出现,即DF低,也就是IDF越高,则认为这个词具有很好的类别区分能力。
  • TF(Term Frequency)词频:表示词语在文档d中出现的概率,计算公式如下:
    t f i , j = n i , j ∑ k n k , j \mathrm{tf}_{\mathrm{i}, \mathrm{j}}=\frac{n_{i, j}}{\sum_{k} n_{k, j}} tfi,j=knk,jni,j
    其中, n i , j \boldsymbol{n}_{i, j} ni,j是该词语 t i \boldsymbol{t}_{i} ti在文档 d j \boldsymbol{d}_{j} dj中出现的次数,而分母则是在文档 d j \boldsymbol{d}_{j} dj中所有字词的出现次数之和。
  • IDF(Inverse Document Frequency)逆文档频率:表示语料库中包含词语 t i \boldsymbol{t}_{i} t
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值