零基础入门NLP-新闻文本分类
TF-IDF 分数由两部分组成:第一部分是词语频率(Term Frequency),第二部分是逆文档频率(Inverse Document Frequency)。其中计算语料库中文档总数除以含有该词语的文档数量,然后再取对数就是逆文档频率。
TF(t)= 该词语在当前文档出现的次数 / 当前文档中词语的总数
IDF(t)= log_e(文档总数 / 出现该词语的文档总数)
1、TF-IDF主要参数
norm:'l1', 'l2', or None,optional
范数用于标准化词条向量。..
原创
2020-07-25 22:52:02 ·
133 阅读 ·
0 评论