TF-IDF(词频-逆文件频率) 一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章. 参考:https://blog.csdn.net/u011630575/article/details/80179494