sklearn计算tf-idf中字+词的tfidf计算（char,word）,analyzer='word'

最新推荐文章于 2021-03-31 16:29:49 发布

贾世林jiashilin

最新推荐文章于 2021-03-31 16:29:49 发布

阅读量1.4k

点赞数 3

分类专栏： sklearn

本文链接：https://blog.csdn.net/qq_35290785/article/details/98121876

版权

1 篇文章 0 订阅

订阅专栏

做tfidf计算有几行核心代码：

    vectorizer = CountVectorizer()    
    transformer = TfidfTransformer()
    tfidf = transformer.fit_transform(vectorizer.fit_transform(text))

如果text中包含这样的数据：['驴福记 ( 阜通店 )','...',...], 执行vectorizer.fit_transform一定会报错如下：

*** ValueError: empty vocabulary; perhaps the documents only contain stop words

但是如果 text 修改为：['驴福记 ( 阜通店 )','...',...]，执行vectorizer.fit_transform就正常。

创建CountVectorizer实例时，有一个默认参数analyzer='word'，在该参数作用下，词频矩阵构建过程会默认过滤所有的单字token，所以上面的'驴福记 ( 阜通店 )'以空格分隔以后全是单字，也就全被过滤了，所以就empty vocabulary了。

如果想针对单字进行tfidf计算，可以加上参数vectorizer = CountVectorizer(analyzer='char')，此时，输入字符串无需做空格分隔， CountVectorizer会自动按照单字进行分隔统计词频。

要想同时支持字+词的tfidf计算，需自定义token正则：


vectorizer = CountVectorizer(analyzer='word',token_pattern=u"(?u)\\b\\w+\\b")

关注