from:文书、皮卡丘图片、佚名 I-Match算法主要是根据大规模的文本集合进行统计,对于文本中出现的所有单词,按照单词的TF-IDF(逆文本词频因子)来进行由高到低的排序,除去得分最高和得分最低的单词,保留剩下的单词最为特征词典。这一步骤主要是删除文本中的无关词,保留重要关键词。下面是I-Match流程示意图: