先看:
https://www.jianshu.com/p/c7e2771eccaa
但是链接中一些参数如max_df,min_df写得不够清晰。
原理介绍
参考:
https://blog.csdn.net/longyi_java/article/details/8625122
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。
TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。
sklearn中实战
from sklearn.feature_extraction.text import TfidfVectorizer
orpus = [
'This is the first document.',
'This document is the second document.'