文本特征表示方法——词频-逆文档频率(TF-IDF)
文本特征表示方法——词频-逆文档频率(TF-IDF)0 引言\qquad词频-逆文档频率(TF-IDF)是Salton于1988年提出的一种权重计算方法,用于判断字词对于一个文档集合的重要性。在介绍TF-IDF之前,需要先对词频(TF)、逆文档频率(IDF)分别进行介绍。1 词频(Term Frequency, TF)\qquad词频(Term Frequency, TF)即词的频率,表示词条项在一个文档中出现的频率,计算公式如下:tft,d=ft,dndtf_{t,d} = \frac{f_{t
原创
2022-05-04 17:38:32 ·
4734 阅读 ·
1 评论