基于TF-IDF和余弦定理计算文本相似度进而进行分类
1. 首先解释一下什么是TF-IDF。
TF-IDF(Term Frequency-Inverse Document Frequency),汉译为词频-逆文本频率指数。一般来说,假设一篇文章中的某个词i出现的词数为Nwi,这篇文章总词数为N,则这个词对应的词频TFi=Nwi/N。逆文本频率指数IDF一般用于表示一个词的权重,其求解办法为IDFi=log(D/Dw),这里D指的是文本总量,Dw指的
原创
2018-01-14 20:08:31 ·
2838 阅读 ·
0 评论