彻底解决！TF-IDF中的 TypeError: doc2bow expects an array of unicode tokens on input, not a single string

最新推荐文章于 2023-05-06 10:34:11 发布

一个无情的靓女

最新推荐文章于 2023-05-06 10:34:11 发布

阅读量1.1k

点赞数 12

分类专栏： no error! 文章标签： python 开发语言

本文链接：https://blog.csdn.net/The_Ruthless/article/details/126095273

版权

no error! 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本文档详细记录了一位开发者在使用Gensim库生成词典和词袋模型时遇到的错误。原始代码在尝试将读取的文件内容转换为词典和词袋模型时，遇到了`doc2bow`期望输入为Unicode tokens数组而非单一字符串的错误。尝试了一些网上解决方案后，问题仍未解决。最终，通过在生成词典和词袋模型的代码中将`corpus`用方括号包围，即`[corpus]`，成功解决了问题，使得程序能够正常运行。

摘要由CSDN通过智能技术生成

使用gensim生成词典时，原代码如下：

import json
from gensim import corpora

# corpus
f = open('filename', 'r')
content = f.read()
a = json.loads(content)
f.close()
corpus = []
for k,v in a.items():
    corpus.append(v)

# 生成词典
dictionary = corpora.Dictionary(corpus)
# 生成词袋
mycorpus = [dictionary.doc2bow(text) for text in corpus]
print(mycorpus)

但是报错：

TypeError: doc2bow expects an array of unicode tokens on input, not a single string

试了网上的方法：

将

dictionary = corpora.Dictionary(corpus)

改成：

dictionary = corpora.Dictionary([corpus])

但还是报错：

TypeError: doc2bow expects an array of unicode tokens on input, not a single string

⭐最终解决方法来了！！！

把这两句：

# 生成词典
dictionary = corpora.Dictionary(corpus)
# 生成词袋
mycorpus = [dictionary.doc2bow(text) for text in corpus]

改成：

# 生成词典
dictionary = corpora.Dictionary([corpus])
# 生成词袋
mycorpus = [dictionary.doc2bow(text) for text in [corpus]]

也就是将 corpus 都加上[ ]，就可以正常运行啦！！！

希望这篇文章对您有所帮助✌

一个无情的靓女

关注

12
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录