文本特征提取--TFIDF与Word2Vec 1.TF-IDF 1.1 定义 1.2 计算过程: 1.2.1 TF(Term Frequency): 1.2.2 IDF(InversDocument Frequency): 1.3 基于scikit-learn的实现: 1.4 优缺点 1.5 主要应用: 1.6 TF-IDF的实现方法: 1.6.1 用sklearn库来计算tfidf值 TF-IDF的参数 2.Word2Vec 2.1 概念 参考链接 1.TF-IDF 1.1 定义 TF-IDF是Term Frequency - Inverse Document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,TF和IDF。TF-IDF:是一种加权技术。采用一种统计方法,根据字词在文本中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料中的重要程度。 1.2 计算过程: 公式如下: t f i d f i , j tfidf_{i,j} tfidfi,j表示词频 t